假货真货！文字直接生成视频 AI视频工具Sora是如何做到的？-玩转趣(WzQu.COM)

2024年2月16日，Open AI在X（原Twitter）上发布消息，隆重介绍其新的文本转视频模型——Sora。

该模型可以生成长达60秒的视频，在此过程中，它还可以自行切换镜头，甚至给出特写镜头。

一位时尚女性走在霓虹灯和广告牌照亮的东京街道上。她穿着黑色皮夹克、红色裙子和黑色靴子，背着一个黑色包。她戴着太阳镜，涂着红色口红。她走路自信而轻松。街道湿漉漉的，地上的水可以像镜子一样反射出七彩的灯光，路上来来往往的行人很多。

3D 动画展示了一个小而圆的毛茸茸的生物探索充满活力的神奇森林。这种生物是兔子和松鼠的杂交体，拥有柔软的蓝色皮毛和蓬松的条纹尾巴。它沿着波光粼粼的小溪跳跃，眼睛里充满了好奇。森林里充满了神奇的元素：会发光、变色的花朵、长着紫色和银色叶子的树木，以及类似萤火虫的漂浮光点。该生物最终停下来与一群围绕着蘑菇跳舞的仙女一起玩耍。这个生物敬畏地抬头看着一棵发光的大树，这棵树似乎是森林的中心。

乍一看，你可能会认为这些视频是专业拍摄团队或动画公司制作的短视频。在OpenAI社区中，也有网友有同样的感受，并评论称担心Sora会抢走动画师的饭碗。

图片是机器翻译并取自：community.openai.com

其他人担心这种技术可能被用来伪造视频，甚至被用来在法庭上作伪证。

图片为机器翻译，取自：X

那么Sora是如何生成这样的视频的呢？它真的无所不能，会抢走人类的工作吗？

Sora 如何生成视频？

从2022年下半年开始，Midjourney、Stable Diffusion等应用已经可以根据文本提示词生成相应的图像。 2023 年9 月，GPT 4.0 和DALLE 3 的结合也让我们能够以基于聊天的方式生成和修改图像。

人工智能生成的视频并不是什么新鲜事。此次Sora发布之前，已经有一些视频生成AI，比如Pika、Stable video、RunwayML等。不过与Sora相比，其他模型生成的视频时长相对较短，而且也多了很多。在相机移动和镜头切换等方面较弱。

那么，Sora 是如何生成视频的呢？

Open AI发布了一份关于Sora的技术报告，其中提到“Sora是一种扩散模型”。

Sora 是一个扩散模型。图片来源：Open AI官网

扩散模型本身非常复杂。具体细节我们不再赘述。我们仅通过一个简单的例子来大致了解扩散模型的思想。

如果我们现在有一张狗的照片，我们可以一步步给照片添加噪点，让它越来越模糊，最终变成一堆杂乱的噪点。

添加噪声和去除噪声，图片来源：参考文献[3]

如果我们逆向这个过程，我们也可以从一堆杂乱的噪声点中一步步去除噪声，恢复到目标图像。扩散模型的关键是学会反向去除噪声点。

当然，扩散模型不仅可以用来生成图像，还可以用来生成视频。比如Sora的技术报告中提到，Open AI对视频数据进行一些转换处理，使得视频数据可以直接用来训练模型，让Sora可以直接根据提示词生成视频。

Sora 转换视频数据。图片来源：Open AI官网

Sora强大的视频创作能力

据Open AI介绍，Sora“继承”了Open AI理解文本的能力，可以根据提示文字生成高质量的图片和视频，并且可以向前或向后扩展视频。例如，您可以根据同一视频的开头继续扩展，并将其延伸到不同的结尾。或者它们从不同的起点引入，最终汇聚到相同的结局。

这三个视频的开头最终都会走向同一个结局。图片取自：Open AI官网

此外，Sora不仅可以基于文本生成视频，还可以直接输入图片或视频来编辑和调整图片和视频。

例如，你可以让这辆在普通道路上行驶的汽车变得更加“赛博朋克”。

图片取自：Open AI官网

除此之外，空还展现出了一些以前从未想到的能力。例如，它可以跟随物体移动相机，当移动相机改变角度时，仍然可以保持周围场景的合理和完整。

《强大的索拉》仍然存在一些缺陷

虽然空展现出了强大的能力，但现阶段还不是完美的。

并不是每次Sora都能制作出令人满意的视频。《麻省理工科技评论（MIT Technology Review）》主要作者Will Douglas Heaven 写道：“Sora 发布的视频已经是从大量结果中选出的最好的了。”但即使是这些“精选的最佳”也并不完美。

Sora的技术报告中也承认，Sora现阶段生成的视频存在一些缺陷。比如下面的视频片段“考古学家挖出了一把塑料椅子”，这把塑料椅子显然不符合客观物理定律。

另外，打破下面玻璃的过程也不是很“科学”。在玻璃破裂之前，玻璃里的液体就已经流出来了。

因此，Sora还有很多需要改进的地方。但毫无疑问，索拉目前的能力已经表明，这是一条非常有前途的道路。

索拉安全吗？它会取代人类吗？

这几天，Sora生成的视频充斥了很多人的微信朋友圈。人们除了感叹空的强大之外，也表达了担忧。这些担忧集中在两个方面。

第一个担心是：Sora生成视频的能力太强大了。如果利用这样的技术进行诈骗，那不是很可怕吗？未来我们如何知道所看到的视频是真是假？

另一个担忧主要来自于视频行业的从业者。如果像Sora这样的模特走红的话，视频行业的从业者会不会全部失业呢？

我们先来说说安全问题。事实上，Open AI也考虑到了Sora可能带来的安全问题。目前，Sora仅对少数人开放，在确保不会被用于不良目的之前不会向公众开放。

那么Sora会取代人类视频工作者吗？

可以肯定的是，Sora的出现可能会威胁到一些动画素材的制作者。

例如，今年1月，《好莱坞报道》对300名娱乐行业领导者进行了调查。四分之三的受访者表示，人工智能将减少未来的就业岗位，未来三年将有超过20万个就业岗位。职位受到影响。空的出色表现将会加剧这种影响。

但换个角度思考，每一次新兴技术的出现，既带来威胁，也带来新机遇。

包括Sora在内的视频生成AI只是一个工具，视频的创作源泉仍然需要人类提供。 Sora或许能够帮助人类更高效地制作视频，同时也让每个普通人有机会制作自己的创意视频。

参考

[1]https://openai.com/research/video- Generation-models-as-world-simulators

[2]https://openai.com/Sora[3]https://scholar.harvard.edu/binxuw/classes/machine-learning-scratch/materials/foundation-diffusion-generative-models

[4]https://www.hollywoodreporter.com/business/business-news/ai-hollywood-workers-job-cuts-1235811009/

策划及制作

本文为科普中国-星空计划作品

中国科协科普部出品

出品中国科学技术出版社有限公司、北京中科银河文化传媒有限公司

作者丨小伟科普创作者

评论|秦增昌，北京航空航天大学自动化科学与电气工程学院副教授

策划丨徐来

相关文章

AI视频工具又上新了！ 120秒生成高清视频 可在线播放

地球上最强大的AI视频创作工具？皮卡保姆等级注册用户指南

你认为这三款AI视频工具表现更好吗？

热门文章

1华为PixArt-α模型

2名称：AI办公工具

3偷偷告诉你什么是AI绘画工具 请赶紧写下来

4用这7个AI图像工具 不用成为设计师也能成为设计师

5分享几款免费的AI写作工具

AI视频工具又上新了！ 120秒生成高清视频可在线播放

3偷偷告诉你什么是AI绘画工具请赶紧写下来

4用这7个AI图像工具不用成为设计师也能成为设计师