革新对话式AI模型 NVIDIA在INTERSPEECH 2021大会展示语音技术突破性进展原创

作者：李祥敬

在近日举行的在INTERSPEECH 2021大会上，NVIDIA研究人员展示了语音技术方面的突破性进展，以及NVIDIA研究院将展示对话式AI模型架构以及供开发者使用的完全格式化语音数据集。

对话式AI系统通过自然语言对话与人进行交互，它可以进行类似人类的对话，捕获上下文并提供智能的应答，就像真人一样。

但是直到目前，AI合成语音与我们在日常对话和媒体中听到的人类语音之间仍有差距。这是因为人在说话时会有复杂的节奏、音调和音色，而AI很难在这些方面进行模仿。

在这种情况下，NVIDIA研究人员正在创建高质量、可控制的语音合成模型和工具，这些模型和工具能够捕捉人类语音的丰富性，并且不会出现音频杂音。

革新对话式AI模型 NVIDIA在INTERSPEECH 2021大会展示语音技术突破性进展

在近日举行的在INTERSPEECH 2021大会上，NVIDIA研究人员展示了语音技术方面的突破性进展，以及NVIDIA研究院将展示对话式AI模型架构以及供开发者使用的完全格式化语音数据集。比如兼容任何场景的多麦克风语音去混响、使用稀疏随机三元矩阵压缩一维时间通道可分离卷积、Hi-Fi多讲话者英语TTS数据集、SPGISpeech、 TalkNet 2、NeMo逆向文本正则化等。

这些模型有助于为银行和零售商的自动客户服务热线配音、使视频游戏和书籍中的人物变得栩栩如生，并为数字化身提供实时语音合成。

解密I AM AI

相信对于NVIDIA比较熟悉的朋友，一定对I AM AI系列视频非常熟悉。其实，NVIDIA研究人员和专业创作人员就将突破性的语音合成模型应用于I AM AI系列视频中。

此前，这些视频还都是由人类配音的。以前的语音合成模型对合成声音节奏和音调的控制十分有限，因此AI配音无法唤起观众的情感反应，只有富有感情的人类声音才能做到这一点。

在过去的一年中，NVIDIA文本-语音研究团队开发出更强大、更可控的语音合成模型（如RAD-TTS），使得上述情况发生了变化。NVIDIA在SIGGRAPH Real-Time Live比赛中的获奖演示就采用了这个模型。通过使用人类语音音频来训练文本-语音模型，RAD-TTS可以将任何文本转换成说话人的声音。

该模型的另一项功能是语音转换，即使用一名说话人的声音讲述另一名说话人的话语（甚至歌唱）。RAD-TTS界面的灵感来自于将人的声音作为一种乐器这一创意。用户可以使用它对合成声音的音调、持续时间和强度进行精细的帧级控制。

通过这个接口，视频制作者可以在录制中自行阅读视频文本，然后使用AI模型将他作为男叙述者的语音转换成女叙述者的声音。制作者可以使用这个基准叙述，像指导配音演员一样指示AI，比如通过调整合成语音来强调特定的词语、修改叙述节奏以更好地表达视频中的语气等。

该AI模型的能力已超出了配音工作的范围：文本-语音转换可以用于游戏、为有声音障碍的人提供帮助、或帮助用户用自己的声音进行不同语言的叙述。它甚至可以重现标志性歌手的表演，不仅能够匹配歌曲的旋律，还能匹配人声背后的情感表达。

NVIDIA NeMo

具有表现力的语音合成只是NVIDIA 研究院在对话式AI领域的重点工作之一。该领域还包括自然语言处理、自动语音识别、关键词检测、音频增强等。

这些前沿工作经过优化后可以在NVIDIA GPU上高效运行，其中的一些工作已经通过NVIDIA NeMo工具包开放源代码，可在NVIDIA NGC 容器和其他软件中心获得。

NVIDIA NeMo是一款用于GPU加速对话式AI的开源Python工具包。研究者、开发者和创作者通过使用该工具包，能够在自己的应用实验和和微调语音模型方面取得先机。

NeMo中易于使用的API和预训练模型能够帮助研究人员开发和自定义用于文本-语音转换、自然语言处理和实时自动语音识别的模型。其中几个模型是在NVIDIA DGX 系统上使用数万小时的音频数据训练而成。开发者可以根据自己的使用情况对任何模型进行微调，运用NVIDIA Tensor Core GPU上的混合精度计算加快训练速度。

NVIDIA NeMo还通过NGC提供在Mozilla Common Voice上训练的模型，该数据集拥有76种语言、近14000小时的众包语音数据。该项目的目标是在NVIDIA的支持下，通过全球最大的开源数据语音数据集实现语音技术的普及化。

结语

随着人工智能技术的落地，开发者和创作者可以使用最先进的对话式AI模型进行具有表现力的语音合成，为角色、虚拟助手和个性化形象生成声音。

GPU优化的语言理解模型可以集成到医疗、零售和金融服务等行业的人工智能应用程序中，为智能音响和客户服务线中的高级数字语音助理赋力。这些高质量的对话式AI工具可以让各个行业的企业为客户提供前所未有的个性化服务标准。

来源：至顶网计算频道

NVIDIA

0赞

好文章，需要你的鼓励

革新对话式AI模型 NVIDIA在INTERSPEECH 2021大会展示语音技术突破性进展 原创

来源：至顶网计算频道

2021

09/01

11:15

分享

点赞

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

端侧感知、私有闭环、量子协同， NVIDIA全栈异构计算范式“接管”实体产业底座

边缘智算筑基、全栈软硬协同，研华科技将AI带进产业闭环

千问AI眼镜将升级为智能体眼镜：能灵活调用Skill和Agent，能全天候感知

对话Moonix郭于晨：先让用户戴上“眼镜”，再让“AI”记录世界

亮相WAIC 2026，临床实证赋能康养升级 无芯科技定义AI疗愈新范式

生态覆盖持续扩散，一文看懂各行业企业鸿蒙化转型进度

WAIC亮出集群协作真功夫，优艾智合领跑工业具身智能规模化

NVIDIA Blackwell 现已在云端全面可用

为“代理式AI”装上“护栏” NVIDIA打造“三重防线”

黄仁勋现身北京致辞：60年后，计算机正被重新定义

CES 2025 | NVIDIA Isaac GR00T Blueprint 让人形机器人“加速进化”

未来，就在我们手中

CES 2025 | 代理式AI崛起：NVIDIA定义下一代“代理式 AI Blueprint”

深度学习最佳 GPU，知多少？

NVIDIA推出用于多语言生成式人工智能的NeMo Retriever微服务

NVIDIA 初创加速计划 | 2024 NVIDIA 创业企业展示完美收官!

老黄掏出“迷你版AI超算”，每秒67万亿次运算，仅售2070元人民币

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

革新对话式AI模型 NVIDIA在INTERSPEECH 2021大会展示语音技术突破性进展原创

亮相WAIC 2026，临床实证赋能康养升级无芯科技定义AI疗愈新范式