Nvidia今天在Interspeech 2021大会上推出了其最先进的对话人工智能模型,缩小了合成语音和人类语音之间的差距。
Nvidia科学和人工智能作者Isha Salian在一篇博客文章解释说,Nvidia在尝试使用AI创建与人类语音几乎无异的合成语音方面,取得了长足的进步。她指出:“人工智能已经将合成语音从单调的机器人录音以及有几十年历史的GPS导航系统,转变为智能手机和智能音箱中有着优美语调的虚拟助手。”
也就是说,差距仍然存在,因为人类语言中复杂的节奏、语调和音色是很难模仿的,但是Nvidia表示,现在距离弥合这一差距越来越近,将向所有人展示Nvidia正在取得的进展,同时邀请开发者基于这些成果再接再厉。
Salian称,RAD-TTS等可控语音合成模型可以很好地证明Nvidia所取得的成果、本月早些时候在SIGGRAPH Real-Time Live比赛期间,Nvidia演示了这一模型,该模型使用人类语音中的音频对一个文本转语音的模型进行训练,从而可以将任何新建文本转换为人类声音。
此外,RAD-TTS模型可以进行语音转换,也就是将一个说话者的声音转换为另一个人的声音,甚至这个人是以唱歌的形式而不是用正常声音说话。
Salian写道:“受到把人类声音作为一种乐器的想法启发下,RAD-TTS模型为用户提供了对合成语音的音高、持续时间和能量的细粒度、帧级控制”,这样就可以取得一些非常独特的结果,例如用女性叙述者的声音代替男性的声音。
Nvidia公司应用深度学习研究副总裁Bryan Catanzaro在新闻发布会上表示,语音研究是Nvidia的一个战略领域,在这个领域实际上有数十种潜在应用,从视频会议中的实时字幕,到医学转录、聊天机器人与语音接口等等。“我们觉得现在是让这些技术发挥更大价值一个很好的时机。”
Salian表示,Nvidia正在通过NGC人工智能软件中心上新推出的Nvidia NeMo工具包,将许多技术成果提供给开源社区。
Nvidia NeMo是一个用于GPU加速对话AI的开源Python工具包,旨在帮助研究人员和开发人员为不同的应用创建、试验和微调语音模型,该套件中包括了各种易于使用的应用编程接口和预先训练好的模型,从而帮助研究人员定制他们想要的模型,用于文本转语音、自然语言处理和实时自动语音识别。
其中一些模型已经使用Nvidia GPU系统对音频数据进行了数万小时的训练,现在开发者可以采用这些模型并针对一系列场景对模型进行微调。
Salian说,潜在的应用不再仅仅是为视频制作画外音这样简单的工作,还可以为有听力障碍的人群提供帮助,或者帮助人们用自己的声音在不同语言之间进行翻译。这些AI模型甚至可以用来重现标志性歌手的表演,不仅匹配歌曲的旋律,还匹配声音的情感表达。
除了Nvidia NeMo模型外,Nvidia研究人员还在Interspeech大会上参与了各种研讨,展示Nvidia在语音合成方面的进展。
好文章,需要你的鼓励
这项研究介绍了VisCoder,一个经过专门微调的大语言模型,用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集,结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中,VisCoder显著优于同等规模的开源模型,甚至在某些方面超越了GPT-4o-mini。研究还引入了自我调试评估模式,证明了反馈驱动学习对提高代码可执行性和视觉准确性的重要性。
这项研究提出了"适应再连续学习"(ACL)框架,一种创新的方法解决预训练模型在连续学习中的稳定性-可塑性困境。通过在学习新任务前先对模型进行适应性调整,ACL使模型既能更好地学习新知识(提高可塑性),又能保留已有知识(维持稳定性)。实验证明,该框架能显著提升各种连续学习方法的性能,为解决人工智能系统中的"灾难性遗忘"问题提供了有效途径。
这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题,提出了LEAF方法(Levenshtein高效对抗性微调)来增强文本编码器的稳健性。实验表明,LEAF显著提高了模型在面对文本扰动时的性能,在AG-News数据集上将对抗准确率从44.5%提升至63.3%。当集成到Stable Diffusion等文本到图像生成模型中时,LEAF显著提高了对抗噪声下的生成质量;在多模态检索任务中,它平均提高了10个百分点的召回率。此外,LEAF还增强了模型的可解释性,使文本嵌入的反演更加准确。
BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好界面,让用户能根据特定需求筛选评估数据。实验证明模型在不同领域的排名差异巨大,强调了定制化评估的重要性。该平台支持多语言扩展和领域特化,为研究人员和开发者提供了灵活评估大语言模型的强大工具。