10月31日-11月1日,LiveVideoStackCon2020音视频技术大会在北京隆重举办。本次大会以“多媒体开启新视界”为主题,聚焦在音频、视频、图像等技术的最新探索与应用实践,覆盖教育、娱乐、医疗、安防、旅游、电商、社交、游戏、智能设备等行业领域,数十位业内知名讲师与来自全国各地的音视频工程师、多媒体工程师、图像算法工程师、运维与物联网工程师等分享了技术创新与最佳实践。
本次大会中,人工智能相关话题十分火爆,AI已经渗透到多媒体技术的各个环节,无论内容生产、编解码、音视频前后处理等,AI都有一席之地,甚至被寄予厚望。网易云信资深音频算法工程师郝一亚博士受邀参会,在“音频技术:逼近人耳极限”专题会场进行了题为《RTC中AI音频算法的产品化》的主题演讲,并在“5G、AI,新技术与新变革”圆桌论坛中分享了AI在音视频领域应用的实践经验。

主题分享中,郝一亚博士首先介绍了AI在音频处理中日渐强大的力量。随着AI在计算机视觉等领域的成功应用,CNN、RNN等深度学习网络被迅速应用到了音频领域,AI在音频降噪、场景分类、回声控制、盲源分离等方向着发挥着越来越重要的作用。
虽然AI在音频领域的价值日渐明显,但在目前的算法中,特别是RTC音频中,还没有被大范围的应用起来。针对音频处理中AI的挑战与局限,郝一亚博士概括为三点。一是计算复杂度。AI模型通常需要巨大的计算量,就目前我们大部分终端设备的计算能力来说压力很大,对RTC中的实时性提出了考验。二是泛化能力。AI算法是基于有限的数据集训练出来的,泛化能力有限一直是问题所在。而RTC中覆盖的业务场景非常多,AI算法要覆盖所有场景更是难上加难。三是鲁棒性。RTC丰富的应用场景中会有很多突发情况,对于AI算法鲁棒性的要求也非常高。
由于算力、数据和AI模型本身的限制,现在AI还达不到替换传统信号处理方法的阶段,但音频AI在效果上的优势已经被证实。郝一亚博士提出,在RTC领域,要想更好地发挥出AI的优势,有效规避不足,进行“模块化”处理是一个有效的途径。把端到端、长链路的处理拆分,分别找到合适的AI模块,让专业的“人”做专业的事。
以音频降噪中的AI算法为例,传统降噪算法中包含了很多模块,其中“噪声估计”模块很适合做深度学习训练,特别是针对一些稳态噪声。在这里,不用端到端地去训练整个AI模型,而是把这一模块训练成单独的噪声估计模型。通过模块化的处理,实现了轻量级模型、简单的训练目标以及更适合DNN模型,从而最大程度的发挥了AI的优势。
郝一亚博士认为,未来越来越多的AI技术将融入到RTC中,一些新的爆发点可能是更先进的神经网络模型,更高效的GPU等,但是,有一项关键点不会变,那就是大量的数据。目前,网易云信已配备了全套工具和环境采集多种来源的数据集用于训练AI算法,已经在音频降噪和视频超分等场景中实践应用。
2015年10月至今,网易云信一直专注于即时通讯和音视频技术领域的前沿探索和应用实践,已帮助100万企业开发者成功发送10000亿条消息,日活突破3亿,在百家争鸣的PaaS市场中实现稳中增长。近期,网易云信再度加码技术能力,全面升级的音视频通话2.0产品上线,AI等新兴技术已融入产品开始服务客户。未来,网易云信将坚持不断创新,探索融合通讯领域的新技术、新产品、新应用,与行业共创美好新时代。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。