10月31日-11月1日,LiveVideoStackCon2020音视频技术大会在北京隆重举办。本次大会以“多媒体开启新视界”为主题,聚焦在音频、视频、图像等技术的最新探索与应用实践,覆盖教育、娱乐、医疗、安防、旅游、电商、社交、游戏、智能设备等行业领域,数十位业内知名讲师与来自全国各地的音视频工程师、多媒体工程师、图像算法工程师、运维与物联网工程师等分享了技术创新与最佳实践。
本次大会中,人工智能相关话题十分火爆,AI已经渗透到多媒体技术的各个环节,无论内容生产、编解码、音视频前后处理等,AI都有一席之地,甚至被寄予厚望。网易云信资深音频算法工程师郝一亚博士受邀参会,在“音频技术:逼近人耳极限”专题会场进行了题为《RTC中AI音频算法的产品化》的主题演讲,并在“5G、AI,新技术与新变革”圆桌论坛中分享了AI在音视频领域应用的实践经验。
主题分享中,郝一亚博士首先介绍了AI在音频处理中日渐强大的力量。随着AI在计算机视觉等领域的成功应用,CNN、RNN等深度学习网络被迅速应用到了音频领域,AI在音频降噪、场景分类、回声控制、盲源分离等方向着发挥着越来越重要的作用。
虽然AI在音频领域的价值日渐明显,但在目前的算法中,特别是RTC音频中,还没有被大范围的应用起来。针对音频处理中AI的挑战与局限,郝一亚博士概括为三点。一是计算复杂度。AI模型通常需要巨大的计算量,就目前我们大部分终端设备的计算能力来说压力很大,对RTC中的实时性提出了考验。二是泛化能力。AI算法是基于有限的数据集训练出来的,泛化能力有限一直是问题所在。而RTC中覆盖的业务场景非常多,AI算法要覆盖所有场景更是难上加难。三是鲁棒性。RTC丰富的应用场景中会有很多突发情况,对于AI算法鲁棒性的要求也非常高。
由于算力、数据和AI模型本身的限制,现在AI还达不到替换传统信号处理方法的阶段,但音频AI在效果上的优势已经被证实。郝一亚博士提出,在RTC领域,要想更好地发挥出AI的优势,有效规避不足,进行“模块化”处理是一个有效的途径。把端到端、长链路的处理拆分,分别找到合适的AI模块,让专业的“人”做专业的事。
以音频降噪中的AI算法为例,传统降噪算法中包含了很多模块,其中“噪声估计”模块很适合做深度学习训练,特别是针对一些稳态噪声。在这里,不用端到端地去训练整个AI模型,而是把这一模块训练成单独的噪声估计模型。通过模块化的处理,实现了轻量级模型、简单的训练目标以及更适合DNN模型,从而最大程度的发挥了AI的优势。
郝一亚博士认为,未来越来越多的AI技术将融入到RTC中,一些新的爆发点可能是更先进的神经网络模型,更高效的GPU等,但是,有一项关键点不会变,那就是大量的数据。目前,网易云信已配备了全套工具和环境采集多种来源的数据集用于训练AI算法,已经在音频降噪和视频超分等场景中实践应用。
2015年10月至今,网易云信一直专注于即时通讯和音视频技术领域的前沿探索和应用实践,已帮助100万企业开发者成功发送10000亿条消息,日活突破3亿,在百家争鸣的PaaS市场中实现稳中增长。近期,网易云信再度加码技术能力,全面升级的音视频通话2.0产品上线,AI等新兴技术已融入产品开始服务客户。未来,网易云信将坚持不断创新,探索融合通讯领域的新技术、新产品、新应用,与行业共创美好新时代。
好文章,需要你的鼓励
英特尔CEO陈立武警告,除非有"重要外部客户"保证利润,否则可能停止14A半导体制程投资。他表示,英特尔18A前的制程可仅靠自有产品获得合理回报,但14A制程的资本成本增加,需要外部客户才能实现可接受回报。如果实施这一决定,可能意味着英特尔无法继续遵循摩尔定律,这对半导体行业将产生深远影响。
浙江大学团队开发的LAPO方法成功解决了AI推理模型"过度思考"问题,通过两阶段训练让AI学会根据问题复杂度自主调整推理深度。实验显示该方法将计算用量减少40.9%的同时准确率提升2.3%,为AI系统的智能化和实用化发展提供了重要突破。
Dispo社交网络和约会应用Teaser AI联合创始人Daniel Liss创立了钢铁制造公司Nemo Industries。该公司计划利用AI技术优化生铁生产,并自建熔炉设施。Liss认为从创立之初就使用AI的公司将比竞争对手拥有20%-30%的利润优势。公司此前已融资2820万美元,目前正与现有投资者洽谈1亿美元A轮融资,并获得两个南方州超过10亿美元的激励措施承诺。
本研究提出了首个针对视觉自回归模型的测试时缩放框架TTS-VAR,通过自适应批次管理、聚类式多样性搜索和重采样式潜力选择三大策略,将AI图像生成质量显著提升8.7%。该框架巧妙地将生成过程视为路径搜索问题,在早期保持结构多样性,后期进行智能选择,实现了计算效率与生成质量的双重优化,为视觉生成技术发展提供了新思路。