首页 >> 数字技术 >>元宇宙 >> 震惊世界的文生视频AI模型“Sora” ,创造新世界的“源代码”
详细内容

震惊世界的文生视频AI模型“Sora” ,创造新世界的“源代码”

微信图片_20190117133609.jpg


视频中所有镜头均为AI生成。

2024年2月16日凌晨,欧帕内i宣布推出了颠覆性的文生成视频模型Sora,标志着人工智能领域迈向了新的里程碑。在发布会上,48个由Sora生成的视频被展示给了观众,场景包括行人穿行于日本街头、雪地中的狗嬉戏、中国舞龙等,展示了Sora模型在视频生成领域的惊人潜力。

值得一提的是,Sora这一命名源自日语中的天空,象征着其广阔的创造空间。Sora的诞生离不开open AI技术团队的努力,这个团队包括蒂姆、布鲁克斯和比尔、皮布尔斯等杰出的开发者,他们选择Sora这一名称,因为它所带来的无限创新潜力。

Openei表示,Sora是在对Dale和GPT模型的研究基础之上打造而成的。它继承了Dale3的画质和指令遵循能力,可以根据用户提供的文本提示生成各种真实与想象的场景。每个视频长度不超过1分钟,但能够展现出丰富的人物背景和特定动作,堪称为视频创作带来了巨大的便利。

Sora是一款通用的视觉数据模型,可以准确地理解用户输入的文本描述,并生成不同时长、长宽比和分辨率的高清视频和图像。相比其他AI视频工具,Sora在视频生成方面的连贯性更为突出。它的视频制作可以包含丰富细致的背景、复杂多角度的镜头以及富有情感的多个角色,而且在整个视频中能够保持视觉风格的一致性。

举例来说,Sora可以创作出时尚女性漫步于霓虹灯闪烁的东京街头的视频,或者雪地里长毛像嬉戏的场景,甚至是太空人冒险的电影预告片。此外Sora还支持生成可变大小的图像,最高可达2048乘以2048分辨率。


Sora还可以对现有视频进行扩展或填充缺失的帧,因此可以用于广泛的视频编辑任务,如创作完美的循环视频、向前或向后扩展视频等。比如可以利用DIAL3生成的图像创建视频,并在此基础上扩展视频编辑、转换视频的风格和环境,将两个输入视频进行无缝连接。

此外Sora能够生成带有动态摄像机运动的视频,能够在三维空间中保持人物和场景元素的一致性。它还能有效地建模短期和长期的依赖关系,生成同一角色的多个镜头,并确保整个视频保持外观的一致性。

然而Sora也存在一些局限性,它可能无法准确模拟复杂场景的物理原理,并且可能无法理解因果关系。模型有时还可能混淆提示的空间细节,例如左右混淆或者难以准确描述随时间推移发生的事件,比如遵循特定的相机轨迹。

尽管如此,Sora作为世界模拟器的视频生成模型,展示了巨大的潜力。随着技术的不断完善和发展,相信它的应用领域将会越来越广泛。

Prompt:A cartoon kangaroo disco dances.


本站已支持IPv6 技术支持: 雷达 | 管理登录
seo seo