致敬经典,拥抱时尚:英特尔以创新技术支持冬奥花滑Gala秀
2022年2月20日,北京——花滑运动员在冰雪世界中翩翩起舞,在数字世界中自在畅游,虚实结合的画面中上演着唯美又惊奇的花滑绝技,这一幕幕出现在备受瞩目的北京冬奥会花滑Gala秀上,向人们展现了一个未来感和艺术感交相辉映的冰雪运动世界。本次不为竞赛、只为观赏的Gala秀以《致敬经典,拥抱时尚》为主题,突破了以往通常由运动员返场表演为主的形式,创新性地将技术融入其中,展现了一场令人耳目一新的视觉盛宴。惊艳的节目背后,是由英特尔以基于英特尔®至强®可扩展处理器的三维运动员追踪技术(3DAT),联合第三方专业团队提供的技术助力完成。
英特尔北京奥林匹克项目办公室总经理赵宏表示:“很荣幸能够在继冬奥会开幕式后,再次通过创新技术为全世界观众献上一场精彩的Gala秀表演。英特尔一直致力于用科技支持体育事业,本届冬奥会的开幕式和Gala秀是英特尔技术在大型演出领域的成功应用。”
在英特尔®至强®可扩展处理器的助力下,3DAT技术从标准视频源中提取表演者或个人的骨骼、肌肉形状及运动轨迹,重建他们的二维及三维骨骼的运动姿态及轨迹模型,并生成生物力学数据,建立模型的同时输出运动表现分析。与传统佩戴传感器的动捕技术不同,3DAT技术在表演者或个人大范围移动时仍可准确捕捉到他们的运动力学产生各种数据,因此,3DAT技术与花样滑冰这样大空间、不便佩戴传感器的运动可谓天作之合。本届冬奥会上,英特尔将这项技术创造性地融入到花滑Gala秀中。
从AI技术本源出发,英特尔收集了海量的花滑运动的视频图像数据,利用半监督技术训练深度神经网络模型,使AI模型具备从图像到三维空间的推理能力。其次,英特尔还收集和制作了大量的三维人体运动数据,AI模型通过学习这些三维数据可以获得人体运动的先验常识,从而保证在推理测试阶段能够输出正确的三维姿态,避免错误异常的预测结果。在模型算法方面,英特尔设计的神经网络具备从粗到精渐进式的学习能力。模型还具备很强的纠错能力,通过嵌入人体运动先验知识,AI模型能够稳定鲁棒预测输出。
而除了现场实时演出,英特尔的技术在Gala秀预演中也发挥了重要作用。英特尔基于第三代英特尔®至强®可扩展处理器,与合作伙伴联手打造的VSS数字孪生场馆模拟仿真服务帮助设计、转播各团队高效协同工作。VSS系统模拟转播机位和拍摄画面,利用系统功能将Gala 秀设计方案在系统中进行预演、输出预拍摄计划,给设计团队和转播团队提供沟通的桥梁并让他们直观理解在创作中表达的核心思想。
清华美院吴琼教授对英特尔技术提供的支持表示了认可:“在短短的1分钟时间里我们要依据现场的要求,配合Gala秀的主题完成对花滑运动的艺术化表达。我们有非常的明确目标,既要有国际化的风格和特点,又要融入中国文化和特点,要既经典又时尚,既唯美又强烈,要用先进的技术形成独特的艺术表达形式,讲好运动、艺术、文化与科技结合的美妙故事。英特尔的技术不仅在很大程度上帮助呈现艺术效果,也在创作、磨合的过程中帮助提高了工作效率,很看好它在更多领域得到应用。”
技术不断激发艺术家的创作灵感,艺术让技术的价值得以在更广阔的舞台展现。在科技和艺术的不断碰撞之下,英特尔在继开幕式节目后,再次为亿万观众奉献了集运动之美、科技之智、文化之魅于一身的Gala秀。在本届冬奥会上,基于英特尔处理器的创新技术如AI数据分析、360° VR技术平台等同样会得到展现。在未来,英特尔也将携手合作伙伴,将创新技术更广泛地应用到人们生活、工作、娱乐的方方面面,践行宏旨:创造改变世界的科技,造福地球上每一个人。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。