Nvidia展示基于对话AI模型的语音合成研究成果

Nvidia今天在Interspeech 2021大会上推出了其最先进的对话人工智能模型，缩小了合成语音和人类语音之间的差距。

Nvidia科学和人工智能作者Isha Salian在一篇博客文章解释说，Nvidia在尝试使用AI创建与人类语音几乎无异的合成语音方面，取得了长足的进步。她指出：“人工智能已经将合成语音从单调的机器人录音以及有几十年历史的GPS导航系统，转变为智能手机和智能音箱中有着优美语调的虚拟助手。”

也就是说，差距仍然存在，因为人类语言中复杂的节奏、语调和音色是很难模仿的，但是Nvidia表示，现在距离弥合这一差距越来越近，将向所有人展示Nvidia正在取得的进展，同时邀请开发者基于这些成果再接再厉。

Salian称，RAD-TTS等可控语音合成模型可以很好地证明Nvidia所取得的成果、本月早些时候在SIGGRAPH Real-Time Live比赛期间，Nvidia演示了这一模型，该模型使用人类语音中的音频对一个文本转语音的模型进行训练，从而可以将任何新建文本转换为人类声音。

此外，RAD-TTS模型可以进行语音转换，也就是将一个说话者的声音转换为另一个人的声音，甚至这个人是以唱歌的形式而不是用正常声音说话。

Salian写道：“受到把人类声音作为一种乐器的想法启发下，RAD-TTS模型为用户提供了对合成语音的音高、持续时间和能量的细粒度、帧级控制”，这样就可以取得一些非常独特的结果，例如用女性叙述者的声音代替男性的声音。

Nvidia公司应用深度学习研究副总裁Bryan Catanzaro在新闻发布会上表示，语音研究是Nvidia的一个战略领域，在这个领域实际上有数十种潜在应用，从视频会议中的实时字幕，到医学转录、聊天机器人与语音接口等等。“我们觉得现在是让这些技术发挥更大价值一个很好的时机。”

Salian表示，Nvidia正在通过NGC人工智能软件中心上新推出的Nvidia NeMo工具包，将许多技术成果提供给开源社区。

Nvidia NeMo是一个用于GPU加速对话AI的开源Python工具包，旨在帮助研究人员和开发人员为不同的应用创建、试验和微调语音模型，该套件中包括了各种易于使用的应用编程接口和预先训练好的模型，从而帮助研究人员定制他们想要的模型，用于文本转语音、自然语言处理和实时自动语音识别。

其中一些模型已经使用Nvidia GPU系统对音频数据进行了数万小时的训练，现在开发者可以采用这些模型并针对一系列场景对模型进行微调。

Salian说，潜在的应用不再仅仅是为视频制作画外音这样简单的工作，还可以为有听力障碍的人群提供帮助，或者帮助人们用自己的声音在不同语言之间进行翻译。这些AI模型甚至可以用来重现标志性歌手的表演，不仅匹配歌曲的旋律，还匹配声音的情感表达。

除了Nvidia NeMo模型外，Nvidia研究人员还在Interspeech大会上参与了各种研讨，展示Nvidia在语音合成方面的进展。

来源：业界供稿

NVIDIA

0赞

好文章，需要你的鼓励

Nvidia展示基于对话AI模型的语音合成研究成果

来源：业界供稿

2021

09/01

10:49

分享

点赞

业界首款符合AEC-Q200标准额定电压高达1,000 VDC高压保险丝

数据中心的智算挑战，英特尔要如何应对？

下一代智能工厂怎么建？开放自动化给出“解题思路”

跟随西门子，在工博会感受沉浸式的工业AI体验

苹果发布 iOS 26.0.1 系统更新，修复多项关键问题

OpenAI将发布类似TikTok的社交应用，搭配Sora 2视频模型

微软推出Office智能体模式让用户"氛围办公"

AI助手现在能帮你创建高质量Word文档和Excel表格

高通新一代骁龙平台将推动智能体AI时代到来

SAPx阿里云，开启一条通往中国市场与全球化发展的全新路径

微软推出"氛围工作"模式，为Office套件加入AI智能体

OpenAI推出智能购物系统挑战谷歌亚马逊

NVIDIA Blackwell 现已在云端全面可用

为“代理式AI”装上“护栏” NVIDIA打造“三重防线”

黄仁勋现身北京致辞：60年后，计算机正被重新定义

CES 2025 | NVIDIA Isaac GR00T Blueprint 让人形机器人“加速进化”

未来，就在我们手中

CES 2025 | 代理式AI崛起：NVIDIA定义下一代“代理式 AI Blueprint”

深度学习最佳 GPU，知多少？

NVIDIA推出用于多语言生成式人工智能的NeMo Retriever微服务

NVIDIA 初创加速计划 | 2024 NVIDIA 创业企业展示完美收官!

老黄掏出“迷你版AI超算”，每秒67万亿次运算，仅售2070元人民币

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: