首页 AI视频工具 让Shiro唱《我是EMO》 Sora国产AI视频工具火了!

让Shiro唱《我是EMO》 Sora国产AI视频工具火了!

标题:让四郎开口唱“朕EMO啦”,硬刚Sora的国产AI视频工具爆红!

“欢欢,我是emo!”

此前,一位名叫“奶茶小胖”的博主因模仿陈建斌唱歌时的声音而走红。 “我很情绪化”、“我可以睡在中间吗”等网络梗广泛流传。心帮旗下数据工具心豆显示,“奶茶小胖子”在抖音上的粉丝数半年猛增370万。

在他的视频中,网友往往只能看到《甄嬛传》的片段。现在,随着EMO模式的出现,网友可以直接看到“皇帝唱歌”的形象,毫无违和感。

近日,阿里巴巴统一实验室研发的AI视频生成模型“EMO”已在统一APP“国家舞台”频道上线。经过测试,只要上传一张照片就能让人物的照片动起来。根据App预设的音频模板生成唱歌视频。

阿里巴巴的EMO模式在今年2月就发表了技术论文,仅用了两个多月就实现了商业化。

从官方演示被科技圈众多KOL转发引发话题,到4月25日统一App正式上线,有消息称服务器一度拥挤不堪。

该车型被外媒誉为“继Sora之后最值得期待的大型车型之一”。实际使用效果如何? Sora引发了人工智能视频生成的新浪潮。为什么阿里巴巴最受国内各大厂商青睐? “头号AI玩家”进行了一些研究。

让四郎开口唱春山,阿里EMO模式上线统一App

只需一张图片即可生成歌唱视频!

想听玛丽莲·梦露演唱《科目三》?安排!

想要《甄嬛传》白唱《欢欢,我想睡在中间》?安排!

以上两个视频是使用统一App中的图片自动生成的。

4月25日,EMO模式在统一App正式上线。 EMO是Emote Portrait Alive的缩写。 EMO作为音频驱动的人像视频生成框架,可以根据输入视频的长度生成任意时长的视频。今年2月,阿里巴巴发布了这个新的生成式AI模型EMO,并发表了一篇技术论文(链接已同步到文末)。

论文信息显示,在EMO 之前,Talking Head 技术需要对面部或身体部位进行3D 建模。同益实验室率先提出弱控设计,无需建模即可驱动人像说话,大大降低了成本。降低视频制作成本;

此外,EMO还学习并编码了人类表达情感的能力,可以将音频内容与角色的表情、嘴型进行匹配,还可以将音频音调特征和情绪色彩呈现给角色的微表情。

统一实验室给出了很多视频案例,比如重温张国荣的歌声魅力;高其强与罗翔老师的法治声音搭配,演绎了一堂守法小课堂。

目前,统一App已推出80多个EMO模板,包括“啊哈哈”李玉玲的声音、“波波鸡”等网络热门表情包语音素材,以及《上春山》 《野狼disco》等热门歌曲。

打开统一App,进入“国家舞台”频道,选择对应的音频模板,上传角色头像,就可以制作一段打破次元墙的视频。

有网友开启想象力,让兵马俑穿越到现代,唱出《科目三》;有网友要求蒙娜丽莎和玛丽莲·梦露说中文;他们甚至要求灭霸唱《野狼Disco》。

根据排名第一的AI玩家的观察,语音模板的时长集中在10秒到20秒之间。 EMO刚推出时,要排队几个小时。目前视频制作的等待时间大约是十分钟到二十分钟。

玩家制作了十多个视频,发现统一App生成的AI视频角色不仅口型和声音自然,眨眼的细节也处理得很好,表情生动逼真,毫无违和感。违反。

但如果反复观看,还是能看到AI的痕迹,人物的情感和台词配合得并不紧密。比如,马斯克笑着唱着“我不想去上班”,萨姆·奥尔特曼则稍稍凶狠地喊道“你踢棉花了”。 ”。

虽然EMO学习和捕捉人类情感的能力还有提升空间,但目前的AI视频已经到了以假乱真的地步,存在被滥用的风险。

据澎湃新闻报道,为了防止对口型技术的滥用,统一实验室团队在应用程序中预设了经过审核的音频模板,并且不允许用户在EMO 中自定义音频功能和API(应用程序编程接口)。暂时;此外,平台将对用户生成的内容进行算法和人工审核,以确保内容安全。

各大厂商竞逐AI视频生成赛道,阿里巴巴为何能屡次破圈?

无论是让照片跳舞的《全民舞王》,还是让照片边唱边跳的《全民歌唱》,这些安装在同易App(原同易千文App)上的热门AI视频玩法,都是基于阿里巴巴同易实验室的研究成果。关于人类视频生成模型。

阿里巴巴同益实验室XR团队负责人薄烈峰在2024中国生成AI大会上透露,人物视频生成模型是其团队研究的重点,基于人物动作、人物换装、人物头像四个框架,以及角色的演唱和表演。统易App上的应用正在逐步上线。

《舞王》背后的技术是角色动作视频生成框架Animate Anybody,它可以根据单个图片和动作序列输出可控的角色动作视频。 《全民唱响》基于人物歌唱视频生成框架Emote Portrait Alive,可以基于单图和音频输出精准的人物歌唱视频。

目前,《全民舞王》和《全民歌唱》已整合到统一App频道菜单栏中的“全民舞台”入口。

据头部AI厂商不完全统计,去年11月以来,国内各大厂商加大了在AI视频生成领域的研发投入。其中,字节跳动的动作最为频繁。无论是高层人员调整,还是模型开发,字节都展现了积极布局AI视频生成领域的决心。

不过,在引爆C端话题方面,阿里巴巴一直更胜一筹。

一键让照片跳舞的《舞王》基于视频生成模型Animate Anybody。去年12月,该项目仅发布了研究论文和演示。同期,字节跳动还发布了专注于TikTok舞蹈的图胜视频模型Magic Animate,还率先推出开源模型社区HuggingFace,方便用户在线体验。

但由于使用步骤繁琐、生成等待时间过长,Magic Animate 并没有在AI 圈外的C 端用户群体中引起大的波澜。

相比之下,与EMO 模型一样,Animate Anybody 在不到2 个月的时间内迅速从模型转移到应用程序。由于使用门槛足够低,内置舞蹈模板足够丰富,——涵盖了Subject 3、Ghost Step Dance、DJ Slow Rocking等12种流行舞蹈,吸引了众多网友下载尝试。

最终,西安某网友在他复活的兵马俑上表演的舞蹈《科目三》成为微博热议话题,而其背后的阿里巴巴统一App也一举冲破圈子。

颇为有趣的是,字节跳动的MagicAnimate和阿里巴巴的Animate Anybody的项目论文发布时间仅相差一天。

当时,有网友戏称这是“淘宝买手秀”与“抖音舞秀”的对决。

但恐怕谁也没有想到的是,原本在抖音上火爆的魔性舞蹈《科目三》,一不小心就成为了“全民舞王”破圈的契机。

如今,《全民舞王》生成的大量舞蹈视频涌入国内各大平台。

最受喜爱的动物之一是这只迷人的牛猫,它舞动着迷人的舞姿。

目前,#跳舞的牛猫#话题在小红书上的浏览量已达9000万次。

围绕着可爱的宠物跳舞,许多博主制作的教程都获得了不错的流量。此外,有网友不仅将跳舞的牛猫制作成表情包,还通过绿屏抠像的方式将其用于猫表情包视频的创作中,促进了内容的二次传播。

在2024年中国生成式AI大会上,薄烈峰对AIGC的内容提出了一个思考:很多生成的视频质量还可以,有趣的是模型可以生成世界上不存在的物种,但你会消费这样的视频已经很久了。内容?

“我感觉AIGC内容生成之前,无论是基础研究还是应用思维,大家都在高速迭代,每个人对这个问题都有自己的思考和答案。”薄烈风说道。

从“全民舞王”到如今的“全民唱响”,阿里或许已经给出了问题的答案,让AI技术与用户建立了真正的联系,与人们的生活、娱乐、社交紧密相连。 AIGC 内容开发的长期路径。

热门文章