首页 AI视频工具 从“图片切割”到“视频切割”Meta上的新AI工具SAM 2

从“图片切割”到“视频切割”Meta上的新AI工具SAM 2

标题:从“抠图”到“抠视频” Meta上新AI工具SAM 2

21世纪经济报道记者孔海丽、实习生王天北京报道

继2023年4月首次推出SAM实现图像精准分割后,Meta于北京时间7月30日推出了可以分割视频的新模型SAM 2(Segment Anything Model 2)。 SAM 2 将图像分割和视频分割功能集成到单个模型中。所谓“分割”,就是区分视频中的特定物体和背景,并对目标进行跟踪。

SAM 2 将图像分割功能推广到视频领域。其响应速度和准确度是上一代的6倍,是目前最好的视觉分割模型。 Meta AI 在发布该版本时强调:“我们相信我们的数据、模型和见解将成为视频分割和相关感知任务的重要里程碑。”

当天,在与黄仁勋的对话中,扎克伯格透露了更多Meta的AI进展,包括基于Llama3.1模型推出了名为AI Studio的新工具,允许用户创建、共享和设计个性化AI通过聊天机器人,用户还可以在社交媒体平台上分享他们的人工智能角色。

“分割一切” SAM 2可以识别视频中的特定对象并实时跟踪和提取对象。它可以高效地辅助视频编辑和特效制作工作。模型还可以根据用户的具体需求选择分割某个物体或某个区域,使控制更加精准。

与其他模型不同,SAM 2 具有对不熟悉的物体和图像进行零样本泛化的能力。无需额外培训。只需点击一帧视频中的任意物体,即可快速实现对目标物体的实时跟踪。处理每个未来的帧。

此外,该模型还可以集成到更大的系统中。它善于从其他智能系统中获取提示,从而实现系统之间的协作。例如,SAM 2可以在AR/VR可穿戴设备中选择用户正在注视的物体,还可以读取分割物体的边界框提示,完成文本提示到视频图像分割的转换。

为了训练SAM 2,Meta 构建了自己的数据引擎——SA-V 数据集,该数据集有效地收集了大量且多样化的视频分割数据集,并用它来迭代模型。 SA-V 数据集包含51,000 个视频和643,000 个时空分割掩模(即masklet)。它是迄今为止最大的数据集,收集了47 个国家/地区不同地理分布的真实世界场景的视频。 SAM 2 在Meta 开源SA-V 数据集上进行训练。为SAM 2提供的注释包括整个对象、对象的部分以及对象被遮挡的情况。

SAM 2模型帮助人类标记目标物体的掩模。同时,SAM 2 将标记的掩模传播到视频的其他帧以生成时空掩模。 SAM 2从时间维度上的对象记忆中获得提示并生成Mask预测。如此循环下去,使SAM 2 不断更新。业界观点认为,SAM 2为视觉数据提供了更快的标注工具,有望用于训练下一代计算机视觉系统。

SAM 2如何准确识别视频中的动态物体? Meta 引入了SAM 的内存机制。对于视频,内存组件可以存储有关交互的信息以及先前处理的有关对象的信息,使SAM 2 能够在整个视频中实现预测行为。根据其基于提示的设计理念,如果在其他帧上提供了相关提示,SAM 2还可以根据存储的对象内存上下文(前一帧和后一帧)有效地纠正其预测,从而显着减少手动注释时间。

Meta官网提供了一个目标物体被遮挡或从视野中消失的例子。为了向模型解释这一新模型,SAM 2中新应用了“遮挡头”模型,用于预测当前帧中是否存在目标物体,判断物体是否可见,并帮助分割即使物体暂时被遮挡。物体,使SAM 2 能够有效地处理遮挡。

然而,当遇到长期遮挡或场景中存在多个相似物体时,SAM 2可能会丢失对物体的跟踪或混淆物体。但同时,上述情况可以通过人为干预来解决,提供精细化提示。

尽管Meta暴露了SAM 2的缺点,但用户仍然对这个模型的未来寄予厚望。

以往的视频编辑技术中,视频剪辑需要逐帧进行编辑。比如,国内明星真人秀多次遇到的问题:“由于明星个人危机,所有场景需要重新剪辑”,可能不再需要视频剪辑人员熬夜、连续加班。

SAM 2的应用范围很广,将在许多需要实时反馈的应用场景中发挥作用,包括自动驾驶、医疗、视频拍摄和编辑、监控等。例如,捕捉动态物体可以实现实时交互并提高机载计算机视觉系统的敏锐度;在辅助医疗中,定位腹腔镜摄像头固定区域;在追踪摄影方面,它可以帮助无人机镜头跟踪和追踪濒危动物;机场、车站人群密集区域的人群实时监测,异常情况预警;也为视频内容博主提供了更多视频创意创作的可能性。

更好的开源生态系统SAM 2也为新模型的出现铺平了道路。 SAM 2的分割生成结果可以输出到其他AI系统(例如现代视频生成模型)。 SAM 2本身还可以接受其他AI系统的输入提示,实现与目标对象的实时交互,例如直播时的AI公共应用。图像构建、自动驾驶路况分析等

为了使学术界能够在现有基础上继续研究,Meta公开发布了预训练的SAM 2模型、SA-V数据集、演示和代码。值得注意的是,尽管需要巨大的计算能力,但SAM 2 仍然坚持开源,并允许用户免费使用(托管在Amazon SageMaker 平台上)。这为Meta 庞大的透明开源生态系统增添了另一个成员。

近期,扎克伯格多次强调开源人工智能的重要意义。他曾在一篇长文中写道:“开源人工智能比任何其他现代技术都具有更大的潜力,可以提高人类的生产力、创造力和生活质量。它还将加速经济增长,推动突破性的医疗和科学研究。”

“当今大多数领先的科技公司和科学研究都是建立在开源软件的基础上的。最重要的是,开源人工智能代表了世界上利用这项技术为每个人创造最大的经济机会和安全的最佳机会。”扎克伯格补充道。

在与黄仁勋的对话中,扎克伯格再次表示希望下一代计算机的发展能够回到开放生态系统获胜的局面。

了解更多信息请下载21财经APP

热门文章