当前位置:首页|资讯|OpenAI|谷歌

浙商证券:OpenAI&谷歌相继发力 有望引领多模态大模型浪潮

作者:水木视讯发布时间:2024-02-17

原标题:浙商证券:OpenAI&谷歌相继发力 有望引领多模态大模型浪潮

浙商证券:OpenAI&谷歌相继发力 有望引领多模态大模型浪潮

智通财经APP获悉,OpenAI 发布文生视频模型 Sora,可遵循用户的指示生成长达一分钟的视频,并保持视觉质量。浙商证券(601878)发布研报称,OpenAI 发布 Sora 模型,有望开启多模态大模型的新一轮浪潮。

以下为研报摘要:

近日,OpenAI 发布文生视频模型 Sora,可遵循用户的指示生成长达一分钟的视频,并保持视觉质量;而谷歌发布 Gemini 1.5 Pro 大模型,可支持超长文本上下文推理,并且多模态能力表现优异,可精确捕捉电影视频细节。我们认为在 OpenAI、谷歌的引领下,有望开启多模态大模型的新一轮浪潮。

OpenAI 发布 Sora 文生视频模型,可生成最长一分钟视频

北京时间 2024 年 2 月 16 日,OpenAI 发布文生视频模型 Sora,可遵循用户的指示生成长达一分钟的视频,并保持视觉质量。Sora 能够生成包含多个角色、特定类型的动作以及主体和背景的准确细节的复杂场景。在 OpenAI 官网上可看到多个由 Sora 模型生成的视频案例,如时尚女子在东京街头、猛犸象在雪原上行走、在艺术馆中边走边欣赏艺术品等等;

Sora 模型基于 DALL-E 和 GPT 模型研究成果,可实现视频加工、拼接等功能

除了基于文本生成视频的能力,Sora 模型也可以接受其他输入,例如预先存在的图像或视频。Sora 能够执行多种图像和视频编辑任务,如创建循环视频、为静态图像添加动画、将视频向前或向后延伸、将两段视频进行拼接等。

OpenAI 官方技术文档指出,研究人员探索了生成模型在视频数据上的大规模训练,并在时长、分辨率和宽高比可变的视频和图像上联合训练了文本条件下的扩散模型。与大语言模型使用文本 Token 不同的是,Sora 模型使用了视觉补丁(Visual Patches)方法,OpenAI 证明了这种视觉补丁的方法在视频/图像生成模型中非常有用。

免责申明:内容来源于网络,若侵犯了您的权益,请及时发送邮件通知作者进行删除。

合作投稿投诉:zhuenejk@163.com


Copyright © 2026 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1