摘要:作为WebRTC 1.0版定稿后的首次大规模技术会议,全球的WebRTC生态玩家将聚焦5月19-2日上海——WebRTCon 2018。
4月17日,距离WebRTCon 2018举行还有一个多月的时间,这是由音视频技术社区LiveVideoStack发起的WebRTC生态大会。大会将聚焦WebRTC技术实践与应用案例两大主线,旨在为WebRTC的7年长跑做一次全面的总结,并为1.0版定稿后找准方向、蓄力出击。
WebRTC是Google开源的多媒体通信框架,2017年不仅完成了1.0版定稿,而且获得了苹果的支持,为打通移动端、浏览器以及IoT等生态系统做好了准备。通过WebRTC,开发者可以快速搭建自己的通信服务,大大节省了研发成本。
此外,WebRTC还获得了Google等主流媒体生态伙伴联盟——AOM的支持,其第一款编解码器AV1在3月完成了1.0版。虽然H.264依然牢牢占据着最流行的视频编解码器,但随着5G在全球逐步商用,以及4K乃至8K视频逐步取代2K,对更高性能的编解码器的需求日益强烈。虽然HEVC生态逐渐成熟,但却饱受专利风险困扰。在这样的背景下,开源、免专利费的AV1很自然成为多媒体生态关注的对象。
在Google看来,编解码器应该和操作系统、浏览器一样是免费的资源,只有这样开发者才能专注在应用层的开发。基于这样的理念,AV1横空出世,他与WebRTC相互配合,如虎添翼。
秉承对内容精益求精,WebRTCon 2018设立了主题演讲,WebRTC与前端,行业应用专场,测试监控和服务保障,娱乐多媒体开发应用实践,WebRTC深度开发,解决方案专场,WebRTC服务端开发,新技术跨界,WebRTC与Codec等多个专场。
讲师方面,来自Google的WebRTC产品负责人Niklas Blum带来WebRTC的最新演进动态,Google多媒体组的Zoe Liu和姜健将分别从AV1与WebRTC和传统Codec与WebRTC协作优化的角度分享经验。
阿里巴巴高级技术专家陈虓将(仲升),腾讯音视频实验室高级工程师张轲,网易云信多媒体资深技术架构师吴桐;TutorABC大前端负责人和君着重介绍WebRTC在前端应用实践经验;作为深度拥抱WebRTC的平台,声网Agora首席WebRTC架构师陈功介绍他们所做的优化与改进。
由于WebRTC先天不具备MCU,各家都在探索相应的解决方案,唐桥科技首席架构师章琦会分享一种全新的混合架构。Aupera傲睿智存CTO周正宁会从FPGA硬件加速的角度,带来MCU优化的新思路。同时,在跨界技术专场会介绍新技术与WebRTC的结合,如优酷VR技术专家盛骁杰介绍VR生态的最新演进。
中兴微电子技术总监、人工智能首席科学家徐科,战旗直播流媒体研发工程师石硕,咪咕视讯王琦还会从芯片制造、成本控制及5G等技术介绍个人的探索与经验。
最后,如果你是刚刚接触学习WebRTC,组委会还提供“WebRTC基础培训:从零到打造多人视频会议”,帮助你快速掌握WebRTC的相关模块,并通过亲自动手搭建一套多人视频会议系统,让你在短时间内掌握WebRTC基本功能。
了解更多讲师资料和大会的最新信息,请访问大会官网。5月4日前购票,享受9折优惠。期待与你5月相聚上海,共同见证WebRTC的未来。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。