12月12日,日本艺术家村上隆在今日头条、西瓜视频、抖音同步开启首场中国直播,吸引近80万人次在线观看。直播过程中,村上隆向中国观众分享了他近期的图书作品以及新的作品灵感,著名摄影师蜷川实花和知名主持人蔡康永也与村上隆探讨了艺术理念等问题。
本场直播中,火山引擎旗下的火山同传产品独家全程提供了实时智能同传字幕,通过深厚的技术实力和稳定的产品服务,给中国观众带来了流畅的跨国直播体验。
火山同传对外首秀 打造“影院级字幕”
在传统会议、直播场景中,机器翻译解决方案提供的字幕通常是“打字级字幕”,观看这种字幕,观众需要投入很大的精力在浏览和理解字幕上,观众体验非常差。原因有两个:一是“打字级字幕”全程会不停跳动,观众的视线无法聚焦,容易造成视觉疲劳。另一个,每句字幕的停留时间过短,观众往往来不及看完就会跳到下一句。
为了提升用户体验,此次村上隆的跨国直播中,火山同传创新性地推出了“影院级字幕”方案,与视频流整合后流畅地输出完整的译文语句,在屏幕上逐句显示。观众可以清楚看到精准的字幕结果,免受字幕跳动带来的视觉干扰。
在本次村上隆的跨国直播中,火山同传的“影院级字幕”方案就引起了观众们的好奇和质疑。在弹幕里,就有个别观众质疑真的是否在直播。
火山同传产品经理表示:“这种质疑在我们看来,是对我们的肯定。为了实现‘影院级字幕’效果,并在直播中保证‘音画字同步’,火山同传准备了一套延时字幕方案。”
该方案中,音频被推送到主控端完成机器同传后,人工利用直播的推拉流延时时间,在机器同传的结果上进行内容校对,以保证投屏字幕的强可读性。之后,火山同传的画面延时功能,能够保证校对后的字幕在延时结束后准时送出,与延时后的画面整合并同步推流到观众端,最终呈现出添加了高质量字幕的直播画面。
保证一场专业直播同传字幕质量的关键是定向的技术优化。字节跳动杰出科学家、人工智能实验室总监李磊介绍,在村上隆的直播中,火山翻译团队除了采用前沿的神经网络机器翻译技术进行模型训练外,还针对直播场景引入了领域适应技术,将村上隆以往的访谈和演讲数据用于优化算法,并对口语规范化、专业术语定制都进行了特殊优化处理,确保最终呈现的字幕能够简洁、精准。
百项专利、50余篇学术论文 打造专业翻译产品矩阵
火山同传“影院级字幕”的背后,是火山翻译团队超过40位顶尖科学家、工程师打磨出的机器翻译模型。
火山翻译由字节跳动计算机研究科学家、工程师、产品经理、产品运营和语言专家组成的专业团队研发,拥有包括火山同传、火山翻译API、火山翻译Studio、浏览器翻译助手等在内的一系列矩阵产品。
目前,火山翻译已支持超过50个语种的全语向互译,应用于办公、娱乐、新闻等各类场景中,每天为来自全球的过亿用户提供优质的翻译体验。
火山翻译团队拥有百余项技术发明专利,在人工智能顶级国际学术会议已发表50余篇学术论文。其自研的高性能序列推理引擎LightSeq,推理速度业界领先,比原生系统提高10倍,翻译速度可达20,000词/秒。
在近期刚结束的机器学习顶级赛事——2020国际机器翻译大赛(WMT2020)中,经过全球语言专家充分评估,火山翻译在「中文-英语」语向翻译项目上力压群雄,以显著优势获得世界冠军。
在人工智能领域,“如何让AI更好地赋能行业”一直是个值得探索的方向。火山翻译的火山同传在这个方向上对外迈出了坚实的一步,将机器同传的高效快捷和人工翻译的精准进行结合。此次村上隆跨国直播中,火山同传就为观众提供了“影院级字幕”的直播体验,实现“1+1>2”的效果。
李磊表示:“火山翻译将致力于打造前沿研究、产品研发和用户反馈的闭环,在迭代中快速进步。希望火山翻译能帮助更多用户进行国际跨语言交流,为行业乃至整个社会发展贡献一份力量。”
好文章,需要你的鼓励
由贝索斯共同领导的普罗米修斯项目已收购AI初创公司General Agents。该公司开发了名为Ace的AI智能体,可自主执行视频编辑、数据复制等计算机任务。General Agents基于视频语言行为架构开发模型,这与普罗米修斯项目专注制造业AI系统的目标高度契合。收购完成后,普罗米修斯团队已超过100人,预计将推进工业机器人领域的AI应用发展。
斯科尔科技学院联合俄罗斯多家研究机构开发出革命性的多语言AI虚假信息检测技术。该研究构建了覆盖14种语言的大型数据集PsiloQA,通过"诱导AI说谎"的创新方法自动生成训练样本,成本仅为传统人工标注的数十分之一。实验证明多语言训练的检测模型性能显著优于单语言模型,为全球AI可信度监督提供了实用解决方案。
Kagi公司发布Orion浏览器1.0版本,这是一款专为苹果平台设计的全新浏览器。该浏览器主打极速浏览体验和用户隐私保护,完全免费使用并附赠200次Kagi搜索。Orion还提供月费5美元的付费订阅服务,解锁更多高级功能。未来计划包括更深度的自定义选项和性能优化。
NVIDIA研究团队发现,训练机器人最有效的方法竟然是最简单的:直接用普通文字告诉机器人该做什么,而不需要复杂的编码系统。他们开发的VLA-0系统在标准测试中超越了所有复杂方法,平均成功率达94.7%,在真实机器人测试中也比预训练系统高出12.5个百分点。这项发现挑战了"越复杂越好"的传统观念,可能加速智能家用机器人的普及。