作者:赵玉和
来源:硬人工智能
知名大型模型开源平台Stability AI最近在其网站上发布了Stable Video 3D(SV3D),这是一款用于渲染3D视频的生成式AI视频工具。
据了解,Stability AI一直在开发其Stable Video技术的视频功能,允许用户根据图像或文字提示生成短视频。 SV3D在Stability AI之前的Stable Video Diffusion模型的基础上进行了改进,适用于Novel View Synthesis和3D生成任务。
借助SV3D,Stability AI 能够从单个输入图像创建和转换多视图3D 网格,从而为其视频生成模型增添了新的深度。
SV3D 现已可供商业使用,Stability AI Professional 会员资格为每月20 美元(适用于年收入低于100 万美元的创作者和开发者)。对于非商业用途,用户可以从Hugging Face 下载模型权重。
下面是SV3D 快速生成的示例视频,尽管存在一些轻微的失真,但当摄像机围绕它们旋转时,视频中所有对象的形状仍然清晰连贯且坚固。
“通过将我们的稳定视频扩散图像更新为视频扩散模型并添加相机路径条件,SV3D 能够生成对象的多视图视频,”该公司在详细介绍新模型的博客文章中写道。
Stability AI 首席研究员Varun Jampani 表示:“SV3D 是生成3D 产品的宝贵工具,尤其是在游戏行业。它还能够生成360 度轨道视频,这在电子商务中非常有用,并提供更身临其境的体验。和互动购物体验。”
科技媒体公司The Rundown 创始人Rowan Cheung 表示,Stabity AI 正在持续输出产品,令人印象深刻。
Stability AI 最出名的可能是其文本到图像模型Stable Diffusion,包括SDXL 和Stable Diffsusion 3.0,后者仍处于早期研究的预览阶段。 Stable Diffsusion 1.5 是一种开源图像生成模型,构成了许多其他AI 图像生成和视频产品的基础,包括Runway 和Leonardo AI。
2023 年12 月,发布了稳定版Zero123 模型,提供了构建3D 图像的新功能。当时,Stability AI 创始人兼首席执行官Emad Mostaque 表示,Stable Zero123 将是一系列3D 模型中的第一个。
SV3D 技术使用与Stable Zero123 不同的方法进行3D 生成。 “SV3D 可以被认为是我们之前提供的Stable Zero123 的继承者和改进版本,”Jampani 说。 “SV3D 是一种新的透视合成网络,它将单个图像作为输入并输出新的透视图像。”
Jampani 解释说,Stable Zero123 基于稳定扩散,一次输出一张图像。 SV3D基于稳定视频扩散模型,同时输出多个新视角,这也是SV3D的一个关键优势。据Stability AI 称,SV3D 能够从任何给定角度提供连贯的视角。
除了新的透视合成功能外,SV3D 还可以优化3D 网格。通过利用多视图3D 图像的一致性,SV3D 可以直接从生成的新视点生成高质量的3D 网格。 Stability AI 在其公告中写道:“SV3D 利用其多视图一致性来优化3D 神经辐射场(NeRF) 和网格表示,以提高从新视点直接生成的3D 网格的质量。”
据了解,SV3D 有两种用于特定目的的变体。其中,SV3D_u基于单张图像输入生成轨道视频,无需相机条件设置; SV3D_p 通过适应单个图像和轨道视图扩展了此功能,允许用户沿着指定的相机路径创建3D 视频。
本文来自华尔街日报,欢迎下载APP查看更多