首页 >> 数字技术 >>大数据 >> OpenAI Sora问世,60秒视频一镜到底,颠覆整个行业
详细内容

OpenAI Sora问世,60秒视频一镜到底,颠覆整个行业

1642168058000_MHIsAfer.gif

AI圈炸了!OpenAI刚刚发布了一个新模型Sora,宣布视频生成领域的GPT-4 时刻到来!

这是OpenAI首款文本到视频的模型,但出道即王炸,Sora能够根据用户的一句话生成长达一分钟的视频,且视频流畅度和稳定性皆在水准之上。


Sora 的问世将视频制作的艺术推向了新的巅峰,其AI制作的视频展现出了复杂的摄影艺术、多元角色设定、逼真的情绪捕捉以及对物理规律的精确模拟。

据悉,这是在 OpenAI 之前的成就——图像创作神器 DALL-E 以及文本生成巨擘 GPT-3 和 GPT-4的基础上,进一步的创新与突破。

Sora 不仅能够在视频主体暂时离开镜头时保持故事线的流畅,还能确保视频内容的真实性和逻辑性,不让任何细节显得突兀或不自然。得益于其采用的Transformer架构,Sora 在处理视频生成的可扩展性上也远超以往任何模型。

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about.”提示:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。


Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. the use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.”提示:“动画场景特写一只矮小的毛茸茸怪物跪在一支融化的红色蜡烛旁。艺术风格是 3D 和逼真的,重点在于光线和纹理。画面的情绪充满了惊奇和好奇,怪物睁大眼睛,张开嘴巴凝视着火焰。它的姿态和表情传达了一种天真和顽皮感,仿佛是它第一次探索周围的世界。温暖的色彩和戏剧性的光线进一步增强了图像的舒适氛围。”

01 Sora的设计原理


Sora 的工作原理可简单概括如下:

扩散模型:Sora 的起点是一个类似于静态噪声的视频画面,它逐步移除噪声,生成清晰的视频。想象一下,就像是从一张模糊的照片开始,逐渐使其变得锐利和清晰。

视频生成:Sora 能够一次性创造完整的视频或者延长现有视频的长度。它能够跟踪视频中跨越多帧的事件,即使某物短暂地消失在视野之外,Sora 依旧能够“记住”它的存在。

换句话说,Sora 的基础是扩散模型,从“随机噪声”开始,通过上百个细致的处理阶段,逐步演化成为一个连贯且生动的视频场景。这不仅使得 Sora 生成的内容在视觉上更加逼真,动态表现也更为流畅,相较于早期的生成式 AI 模型,有了显著的进步。

Sora 建立在 OpenAI 的图像创造工具 DALL-E 的基础之上,借鉴了 DALL-E 的文本解读技巧,使其能够将文字提示精确转换为视频画面。Sora 还能够为现有图片赋予动态效果或延伸视频内容的长度。

该模型通过将视频拆解为众多小块,这些数据单元与自然语言模型中的词汇相似,采用这种统一的数据表现形式,使得 Sora 能在多样化的视频数据上进行训练,涵盖不同的时长、分辨率和宽高比。Sora 采用Transformer架构,针对长序列视频的处理有非常好的扩展能力,得益于Transformer并行处理数据的特性,因此长视频内容具有良好的一致性。

02 如何使用?


在将 Sora 集成到OpenAI 的产品系列之前,目前已向一批研究者和专业人士开放了 Sora API 的访问权限。艺术家、电影制片人和设计师等创意人也可申请此权限,从而为OpenAI 提供反馈。

虽然 Sora 的公开发布时间尚未确定,但 OpenAI 已经明确表示,Sora 预示着 AI 技术迈向下一个发展阶段的步伐比众多人预期的要快。2024 年有可能成为 AI 从引人注目的演示转变为革命性产品的关键年份。

03 如何应对风险?


Sora 开辟了一条创新之路,展现了一种破天荒的 AI 技术,这技术有潜力极大地扩展人类在视觉故事讲述方面的创造力。无论是独立电影制作人还是动画师,都可以通过 Sora 低成本地创作复杂的场景和人物,为他们的作品提供一个跳板。广告制作人同样能利用这一技术快速原型化动态视频概念,更有效地向客户展示他们的创意。

然而,和所有生成式 AI 技术一样,如果没有严格的监管,Sora 的使用可能会走向歧途。它可能被用于制作带有误导性的视频内容,比如用于宣传或诈骗,这是不能忽视的风险。但 OpenAI 明确表示,他们正在对 Sora 实施细致周到的安全措施。

为了确保 Sora 的正当使用,OpenAI 正与虚假信息、仇恨言论和媒体领域的专家紧密合作,共同开发监管策略。这其中包括创建 AI 分类器,专门识别 Sora 生成的视频,并确保遵循 OpenAI 的内容政策。此外,还会邀请外部研究者在 Sora 正式发布前对其安全措施进行逆向测试。

面对如何负责任地推出这样一款强大的视频生成工具的挑战,研究团队充满信心。他们相信,通过与所有相关方的共同合作和开放透明的沟通,可以使像 Sora 这样的 AI 技术不仅推动人类创造力的发展,同时也能有效地控制相关风险。


本站已支持IPv6 技术支持: 雷达 | 管理登录
seo seo