对话式AI系统通过自然语言对话与人进行交互,它可以进行类似人类的对话,捕获上下文并提供智能的应答,就像真人一样。
但是直到目前,AI合成语音与我们在日常对话和媒体中听到的人类语音之间仍有差距。这是因为人在说话时会有复杂的节奏、音调和音色,而AI很难在这些方面进行模仿。
在这种情况下,NVIDIA研究人员正在创建高质量、可控制的语音合成模型和工具,这些模型和工具能够捕捉人类语音的丰富性,并且不会出现音频杂音。
在近日举行的在INTERSPEECH 2021大会上,NVIDIA研究人员展示了语音技术方面的突破性进展,以及NVIDIA研究院将展示对话式AI模型架构以及供开发者使用的完全格式化语音数据集。比如兼容任何场景的多麦克风语音去混响、使用稀疏随机三元矩阵压缩一维时间通道可分离卷积、Hi-Fi多讲话者英语TTS数据集、SPGISpeech、 TalkNet 2、NeMo逆向文本正则化等。
这些模型有助于为银行和零售商的自动客户服务热线配音、使视频游戏和书籍中的人物变得栩栩如生,并为数字化身提供实时语音合成。
解密I AM AI
相信对于NVIDIA比较熟悉的朋友,一定对I AM AI系列视频非常熟悉。其实,NVIDIA研究人员和专业创作人员就将突破性的语音合成模型应用于I AM AI系列视频中。
此前,这些视频还都是由人类配音的。以前的语音合成模型对合成声音节奏和音调的控制十分有限,因此AI配音无法唤起观众的情感反应,只有富有感情的人类声音才能做到这一点。
在过去的一年中,NVIDIA文本-语音研究团队开发出更强大、更可控的语音合成模型(如RAD-TTS),使得上述情况发生了变化。NVIDIA在SIGGRAPH Real-Time Live比赛中的获奖演示就采用了这个模型。通过使用人类语音音频来训练文本-语音模型,RAD-TTS可以将任何文本转换成说话人的声音。
该模型的另一项功能是语音转换,即使用一名说话人的声音讲述另一名说话人的话语(甚至歌唱)。RAD-TTS界面的灵感来自于将人的声音作为一种乐器这一创意。用户可以使用它对合成声音的音调、持续时间和强度进行精细的帧级控制。
通过这个接口,视频制作者可以在录制中自行阅读视频文本,然后使用AI模型将他作为男叙述者的语音转换成女叙述者的声音。制作者可以使用这个基准叙述,像指导配音演员一样指示AI,比如通过调整合成语音来强调特定的词语、修改叙述节奏以更好地表达视频中的语气 等。
该AI模型的能力已超出了配音工作的范围:文本-语音转换可以用于游戏、为有声音障碍的人提供帮助、或帮助用户用自己的声音进行不同语言的叙述。它甚至可以重现标志性歌手的表演,不仅能够匹配歌曲的旋律,还能匹配人声背后的情感表达。
NVIDIA NeMo
具有表现力的语音合成只是NVIDIA 研究院在对话式AI领域的重点工作之一。该领域还包括自然语言处理、自动语音识别、关键词检测、音频增强等。
这些前沿工作经过优化后可以在NVIDIA GPU上高效运行,其中的一些工作已经通过NVIDIA NeMo工具包开放源代码,可在NVIDIA NGC 容器和其他软件中心获得。
NVIDIA NeMo是一款用于GPU加速对话式AI的开源Python工具包。研究者、开发者和创作者通过使用该工具包,能够在自己的应用实验和和微调语音模型方面取得先机。
NeMo中易于使用的API和预训练模型能够帮助研究人员开发和自定义用于文本-语音转换、自然语言处理和实时自动语音识别的模型。其中几个模型是在NVIDIA DGX 系统上使用数万小时的音频数据训练而成。开发者可以根据自己的使用情况对任何模型进行微调,运用NVIDIA Tensor Core GPU上的混合精度计算加快训练速度。
NVIDIA NeMo还通过NGC提供在Mozilla Common Voice上训练的模型,该数据集拥有76种语言、近14000小时的众包语音数据。该项目的目标是在NVIDIA的支持下,通过全球最大的开源数据语音数据集实现语音技术的普及化。
结语
随着人工智能技术的落地,开发者和创作者可以使用最先进的对话式AI模型进行具有表现力的语音合成,为角色、虚拟助手和个性化形象生成声音。
GPU优化的语言理解模型可以集成到医疗、零售和金融服务等行业的人工智能应用程序中,为智能音响和客户服务线中的高级数字语音助理赋力。这些高质量的对话式AI工具可以让各个行业的企业为客户提供前所未有的个性化服务标准。
好文章,需要你的鼓励
开源加密初创公司ZamaSAS宣布完成5700万美元B轮融资,专注于为区块链和AI应用构建全同态加密技术以保护隐私。本轮融资由BlockchangeVentures和PanteraCapital共同领投,使公司总融资超过1.5亿美元,估值突破10亿美元。同时,Zama推出保密区块链协议公开测试网,允许开发者在以太坊上构建私密通信应用。
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
英国网络铁路公司、Neos Networks和Freshwave联合启动"触达项目",旨在消除英国主要铁路干线上的信号盲区。该项目将公私合营模式相结合,预计为纳税人节省约3亿英镑。项目将部署1000公里超高速432芯光纤电缆,覆盖东海岸主线等多条线路,并在12个主要车站提供4G/5G室内连接,在57个隧道中部署4G移动连接。新网络将大幅提升铁路通信基础设施能力,支持轨道传感器和监控应用,为乘客提供更快更可靠的列车服务。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。