2018年8月30日,知名分析机构艾瑞发布了一则《2018年中国视频云服务行业研究报告》。网易旗下通讯与视频云服务品牌网易云信凭借在IM与音视频技术领域的优势和成功实践而获得肯定,入选典型案例。
这份报告涵盖了对于中国视频云服务行业的行业概述、市场洞察、竞争策略和未来趋势。报告指出,视频云厂商基于自身能力、业务扩张需求和客户群体的不同有所侧重,其中性能表现和稳定性是必要条件,在此基础上客户会要求简单易用以及细分领域的场景化功能。报告中还显示,PaaS层服务以通用型为主,行业集中度相对比较高,逐渐在通用能力的基础上探索行业解决方案;SaaS层服务注重场景化应用,厂商在各自细分领域内展开竞争。此外,结合人工智能技术,以效率提升和价值创造赋能客户将成为行业未来发展趋势。其中,网易云信在过去一年表现强劲,报告认为,网易云信在视频云领域的技术实力得到市场认可的同时,行业优势更加凸显。
过去一年间,短视频、直播竞答、在线抓娃娃机、在线教育等应用纷纷站上行业“风口”,这些花样翻新的应用以新的交互方式刺激着人们的听视觉感官。作为“幕后英雄”的视频云市场也随之需求激增,呈现爆发之势。
艾瑞报告提到,在互联网“唯快不破”的法则之下,产品能否快速追赶抢占行业风口,技术显得尤为重要。对此,网易云信首席技术官(CTO)赵加雨在采访中表示:“第一时间抓住机会为客户输出技术并帮助他们快速实现商业变现,是网易云信的价值所在。这背后是网易云信对音视频技术持续多年的攻坚所形成的底气。”
艾瑞在报告中肯定了网易云信的技术能力。作为十年磨一剑的成果,网易云信自研的工业级音视频技术框架NRTC攻克了诸多实时音视频领域的研发难点,以相对完整、功能齐全、灵活易用的优势赢得市场,超过55万开发者接入。 技术攻坚方面,NRTC以技术、功能和场景应用的全面性使这一技术具有更广的适用性。比如,针对音视频使用场景的需要,实现多点实时音视频通信,提供包括直播与实时音视频通话等在内的多样的音视频通信功能。此外,针对音视频交友、在线教学等场景,NRTC也可形成专门的解决方案。其次,在灵活性方面,NRTC在传输端采用私有协议,保障了音视频通信功能在开发过程中能灵活应对业务需求和开发环境的要求。例如,在建立连接和链路选择方面,传输层私有协议大幅提升了连接效率,避免了繁重的标准化的传输协议沟通。
由此可见,NRTC音视频技术框架不仅为客户提供了强大的技术工具,省去二次开发的难题,也为整个互联网行业的产品创新注入了活力。
通用技术能力之外,NRTC还具备高效落地多元化场景应用的能力。当前,实时音视频功能已成为诸多现象级应用的刚需配置。赵加雨透露,NRTC在为网易自家产品提供技术支持之外,也在扩展音视频技术的应用场景。譬如,网易云信历时8个月,为步步高小天才手表接入音视频功能,实现了手表的实时沟通,以便家长及时了解孩子的动态,从而构建起新的场景功能。 2018年年初刮起的直播竞答“风口”,网易云信仅用一天时间便形成解决方案交付客户。而在2017年风靡一时的在线抓娃娃被认为是网易云信入局“直播音视频+物联网“领域的探路之举。它凭借玩法创新让用户脱离视觉、听觉、触觉以及地理位置的束缚,逼近乃至还原对现实场景的控制,引来大量用户“尝鲜”。此外,NRTC技术框架在在线音乐教育等对音视频技术要求更为苛刻的场景中仍然胜任。
可以预见,互联网行业时刻变化,创新层出不穷,音视频技术同样需要持续的升级迭代。对此,赵加雨表示:“除了深耕教育、医疗、金融、智能硬件等行业之外,网易云信也将持续关注企业协同领域,以帮助用户节约成本、提升效率为出发点,将音视频与即时通讯技术完整、深入地落地场景化,加速传统企业转型互联网。”
好文章,需要你的鼓励
这项研究介绍了VisCoder,一个经过专门微调的大语言模型,用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集,结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中,VisCoder显著优于同等规模的开源模型,甚至在某些方面超越了GPT-4o-mini。研究还引入了自我调试评估模式,证明了反馈驱动学习对提高代码可执行性和视觉准确性的重要性。
这项研究提出了"适应再连续学习"(ACL)框架,一种创新的方法解决预训练模型在连续学习中的稳定性-可塑性困境。通过在学习新任务前先对模型进行适应性调整,ACL使模型既能更好地学习新知识(提高可塑性),又能保留已有知识(维持稳定性)。实验证明,该框架能显著提升各种连续学习方法的性能,为解决人工智能系统中的"灾难性遗忘"问题提供了有效途径。
这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题,提出了LEAF方法(Levenshtein高效对抗性微调)来增强文本编码器的稳健性。实验表明,LEAF显著提高了模型在面对文本扰动时的性能,在AG-News数据集上将对抗准确率从44.5%提升至63.3%。当集成到Stable Diffusion等文本到图像生成模型中时,LEAF显著提高了对抗噪声下的生成质量;在多模态检索任务中,它平均提高了10个百分点的召回率。此外,LEAF还增强了模型的可解释性,使文本嵌入的反演更加准确。
BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好界面,让用户能根据特定需求筛选评估数据。实验证明模型在不同领域的排名差异巨大,强调了定制化评估的重要性。该平台支持多语言扩展和领域特化,为研究人员和开发者提供了灵活评估大语言模型的强大工具。