10月31日-11月1日,LiveVideoStackCon2020音视频技术大会在北京隆重举办。本次大会以“多媒体开启新视界”为主题,聚焦在音频、视频、图像等技术的最新探索与应用实践,覆盖教育、娱乐、医疗、安防、旅游、电商、社交、游戏、智能设备等行业领域,数十位业内知名讲师与来自全国各地的音视频工程师、多媒体工程师、图像算法工程师、运维与物联网工程师等分享了技术创新与最佳实践。
本次大会中,人工智能相关话题十分火爆,AI已经渗透到多媒体技术的各个环节,无论内容生产、编解码、音视频前后处理等,AI都有一席之地,甚至被寄予厚望。网易云信资深音频算法工程师郝一亚博士受邀参会,在“音频技术:逼近人耳极限”专题会场进行了题为《RTC中AI音频算法的产品化》的主题演讲,并在“5G、AI,新技术与新变革”圆桌论坛中分享了AI在音视频领域应用的实践经验。

主题分享中,郝一亚博士首先介绍了AI在音频处理中日渐强大的力量。随着AI在计算机视觉等领域的成功应用,CNN、RNN等深度学习网络被迅速应用到了音频领域,AI在音频降噪、场景分类、回声控制、盲源分离等方向着发挥着越来越重要的作用。
虽然AI在音频领域的价值日渐明显,但在目前的算法中,特别是RTC音频中,还没有被大范围的应用起来。针对音频处理中AI的挑战与局限,郝一亚博士概括为三点。一是计算复杂度。AI模型通常需要巨大的计算量,就目前我们大部分终端设备的计算能力来说压力很大,对RTC中的实时性提出了考验。二是泛化能力。AI算法是基于有限的数据集训练出来的,泛化能力有限一直是问题所在。而RTC中覆盖的业务场景非常多,AI算法要覆盖所有场景更是难上加难。三是鲁棒性。RTC丰富的应用场景中会有很多突发情况,对于AI算法鲁棒性的要求也非常高。
由于算力、数据和AI模型本身的限制,现在AI还达不到替换传统信号处理方法的阶段,但音频AI在效果上的优势已经被证实。郝一亚博士提出,在RTC领域,要想更好地发挥出AI的优势,有效规避不足,进行“模块化”处理是一个有效的途径。把端到端、长链路的处理拆分,分别找到合适的AI模块,让专业的“人”做专业的事。
以音频降噪中的AI算法为例,传统降噪算法中包含了很多模块,其中“噪声估计”模块很适合做深度学习训练,特别是针对一些稳态噪声。在这里,不用端到端地去训练整个AI模型,而是把这一模块训练成单独的噪声估计模型。通过模块化的处理,实现了轻量级模型、简单的训练目标以及更适合DNN模型,从而最大程度的发挥了AI的优势。
郝一亚博士认为,未来越来越多的AI技术将融入到RTC中,一些新的爆发点可能是更先进的神经网络模型,更高效的GPU等,但是,有一项关键点不会变,那就是大量的数据。目前,网易云信已配备了全套工具和环境采集多种来源的数据集用于训练AI算法,已经在音频降噪和视频超分等场景中实践应用。
2015年10月至今,网易云信一直专注于即时通讯和音视频技术领域的前沿探索和应用实践,已帮助100万企业开发者成功发送10000亿条消息,日活突破3亿,在百家争鸣的PaaS市场中实现稳中增长。近期,网易云信再度加码技术能力,全面升级的音视频通话2.0产品上线,AI等新兴技术已融入产品开始服务客户。未来,网易云信将坚持不断创新,探索融合通讯领域的新技术、新产品、新应用,与行业共创美好新时代。
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。