重塑视频会议 NVIDIA Vid2Vid Cameo打造逼真的AI人脸说话动态原创

作者：李祥敬

为了让你在每次视频通话中都能完美展现自己，在本周举行的CVPR（国际计算机视觉与模式识别会议）上，由NVIDIA研究人员Ting-Chun Wang、Arun Mallya和Ming-Yu Liu共同撰写发表的Vid2Vid Cameo论文提供了一个全新的解决方案。

疫情期间，线上视频会议成为人们生活与工作沟通的重要方式。但是你是不是会遇到如下尴尬：刚起床，头发凌乱、穿着睡衣，但是却被老板拉上开会。

重塑视频会议 NVIDIA Vid2Vid Cameo打造逼真的AI人脸说话动态

逼真的AI人脸说话动态

Vid2Vid Cameo是用于视频会议的NVIDIA Maxine SDK背后的深度学习模型之一，它借助生成式对抗网络（GAN），仅用一张人物2D图像即可合成逼真的人脸说话视频。

Vid2Vid Cameo只需两个元素，即可为视频会议打造逼真的AI人脸说话动态，这两个元素分别是一张人物外貌照片和一段视频流，它们决定了如何对图像进行动画处理。

要使用该模型，参与者需要在加入视频通话之前提交一张参照图像（真实照片或卡通头像）。在会议期间，AI 模型将捕捉每个人的实时动作，并将其应用于之前上传的静态图像。

也就是说，上传一张穿着正装的照片之后，与会人员即使头发凌乱、穿着睡衣，也能在通话中以穿着得体工作服装的形象出现，因为AI可以将用户的面部动作映射到参照照片上。如果主体向左转，则技术可以调整视角，以便参与者看上去是直接面对摄像头。

除了可以帮助与会者展现出色状态外，这项AI技术还可将视频会议所需的带宽降低10倍，从而避免抖动和延迟。它很快将在NVIDIA Video Codec SDK中作为AI Face Codec推出，为开发者提供经过优化的预训练模型，以便在视频会议和直播中实现视频、音频和增强现实效果。

更广的应用空间

其实应用于视频通话只是Vid2Vid Cameo的一个重要应用场景，其还可用于协助动画师、照片编辑师和游戏开发者的工作。开发者已经能采用Maxine AI效果，包括智能除噪、视频升采样和人体姿态估计。SDK支持免费下载，还可与NVIDIA Jarvis平台搭配用于对话式AI应用，包括转录和翻译。

模型基于NVIDIA DGX系统开发，使用包含18万个高质量人脸说话视频的数据集进行训练。相应网络学会了识别20个关键点，这些关键点可用于在没有人工标注的情况下对面部动作进行建模。这些点对特征（包括眼睛、嘴和鼻子）的位置进行编码。

然后，它会从通话主导者的参照图像中提取这些关键点，这些关键点可以提前发送给其他的视频会议参与者，也可以重新用于之前的会议。这样一来，视频会议平台只需发送演讲者面部关键点的移动情况数据，无需将某参与者的大量直播视频流推送给其他人。

对于接收者一端，GAN模型会使用此信息，模拟参照图像的外观以合成一个视频。

通过仅来回压缩及发送头部位置和关键点，而不是完整的视频流，此技术将视频会议所需的带宽降低10倍，从而提供更流畅的用户体验。该模型可以进行调整，传输不同数量的关键点，以实现在不影响视觉质量的条件下，适应不同的带宽环境。

此外，还可以自由调整所生成的人脸说话视频的视角，可以从侧边轮廓或笔直角度，也可以从较低或较高的摄像头角度来显示用户。处理静态图像的照片编辑者也可以使用此功能。

NVIDIA研究人员发现，无论是参照图像和视频来自同一个人，还是AI负责将某个人的动作转移到另一个人的参照图像，Vid2Vid Cameo均能生成更逼真、更清晰的结果，优于先进的模型。

后一项功能可将演讲者的面部动作，应用于视频会议中的数字头像动画，甚至可以应用于制作视频游戏或卡通角色的逼真形象和动作。

结语

人工智能技术在便利人们生活和工作方面正在发挥越来越重要的作用，而Vid2Vid Cameo借助NVIDI强大的AI能力，让视频会议的体验更棒，乃至在专业的图形和视频制造中有着巨大的想象空间。

来源：至顶网计算频道

NVIDIA

0赞

好文章，需要你的鼓励

重塑视频会议 NVIDIA Vid2Vid Cameo打造逼真的AI人脸说话动态 原创

来源：至顶网计算频道

2021

06/25

10:24

分享

点赞

Cursor通过收购Graphite继续扩张之路

ChatGPT新增个性化设置功能，用户可自定义聊天体验

Kuxiu S3固态电池充电宝替代多款充电器的全能解决方案

Waymo自动驾驶出租车遭遇交通灯故障停摆事件分析

智启未来，共筑开发者生态 AMD携手DataWhale、魔搭社区，共建ROCm开发者生态

千问C端事业群成立后首推平价AI眼镜：低至1999元，搭载千问AI助手

Aqara Hub M200为HomeKit带来Matter支持和新自动化选项

LG智能电视强制安装Copilot快捷方式引发用户不满

Palo Alto Networks与谷歌云签署数十亿美元AI合作协议

OpenAI 获百亿美元融资与AI投资热潮持续升温

Meta计划2026年发布新一代图像视频AI模型

数字孪生联盟推出四个全新测试平台

NVIDIA Blackwell 现已在云端全面可用

为“代理式AI”装上“护栏” NVIDIA打造“三重防线”

黄仁勋现身北京致辞：60年后，计算机正被重新定义

CES 2025 | NVIDIA Isaac GR00T Blueprint 让人形机器人“加速进化”

未来，就在我们手中

CES 2025 | 代理式AI崛起：NVIDIA定义下一代“代理式 AI Blueprint”

深度学习最佳 GPU，知多少？

NVIDIA推出用于多语言生成式人工智能的NeMo Retriever微服务

NVIDIA 初创加速计划 | 2024 NVIDIA 创业企业展示完美收官!

老黄掏出“迷你版AI超算”，每秒67万亿次运算，仅售2070元人民币

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

重塑视频会议 NVIDIA Vid2Vid Cameo打造逼真的AI人脸说话动态原创