英特尔致力于提供构建元宇宙的技术基石,打造持续运行、极具沉浸感的互联体验
(Raja Koduri,英特尔公司高级副总裁兼加速计算系统和图形事业部总经理)
“元宇宙”的概念最早出现在近30 年前尼尔·斯蒂芬森 (Neal Stephenson) 的科幻小说中。近年来,元宇宙开始被描述成为数字世界的终极梦想,在摩尔定律的驱动下,它将在信息丰富、实时连接、全球互联的虚拟现实和增强现实世界中,让全球数十亿用户以全新方式进行工作、娱乐、协作和社交。元宇宙可能是继万维网和移动互联网之后的下一个主要计算平台。
我们正处于新一轮计算革命的风口,即将迎来一个持续运行且极具沉浸感的计算体验时代。现在的电影中,由计算机生成的动画制作几乎可以媲美真人镜头;游戏场景中的画面也尤为逼真。近年来飞速发展的 VR 和 AR 设备,也能够提供非常丰富的沉浸式体验。突如其来的新冠疫情让很多人依赖数字技术进行沟通、协作、学习和生活。同时,“去中心化”的数字金融技术呈井喷式高速发展,其推动了新一轮的商业模式变革,也鼓励每个人在构建元宇宙的过程中发挥作用。
举例来说,如何让两位用户在虚拟环境中进行交流?这需要基于传感器数据来捕捉真实世界中的3D对象、手势、音频等信息并进行实时渲染,从而打造出从服装、头发到肤色等细节都高度逼真的数字化身(avatar)。此外,我们还需要以超高带宽和极低时延进行数据传输,以及维护一个持续运行的环境模型,它可能既包含真实环境的元素,也包含模拟环境的元素。现在,当我们思考如何为数亿用户规模化地解决这个特定问题时,很快就会意识到当下的计算、存储和网络基础设施不足以支撑这一愿景的实现。
这意味着,人们对算力的需求正呈指数级增长,同时还需要以更低时延访问众多不同形态的设备。为实现这一目标,整个互联体验的基础技术需要进行重大升级。英特尔赋能元宇宙的技术基石可以概括为三层,这也是我们持续深耕的关键领域。
元智能层 (meta intelligence layer) 旨在提供统一的编程模型以及开放的软件开发工具和软件开发库,以便开发者能够更轻松地部署复杂的应用程序。元操作层 (meta ops layer) 聚焦于向用户交付超越本地的可用算力。元计算层 (meta compute layer) 则是为实现元宇宙体验提供其所需的原始动力。
数十年来,英特尔®酷睿™处理器致力于提供出色的游戏体验,其优秀的单线程性能为丰富游戏体验如虎添翼。时下诸多游戏、VR/AR 体验和电影中的逼真动画都是在搭载英特尔酷睿的PC和工作站上实现的。在云和数据中心,英特尔®至强®处理器则针对更低时延和更高吞吐量进行了优化。而且,英特尔针对边缘计算的处理器、基础设施处理单元、现场可编程门阵列和 5G 解决方案弥合了从云到边缘的鸿沟,这对于元宇宙所需的大型分布式计算至关重要。
构建元宇宙所需的技术基石不止于此。英特尔全新 Xe 架构能够加速和渲染丰富的沉浸式体验,并同时覆盖客户端和服务器端,包括针对游戏和创作的英特尔锐炫™ (Intel® Arc™) Alchemist 显卡,以及针对加速高性能计算和图形化的 Ponte Vecchio,两者均将于 2022 年面市。除此之外,我们的多代高性能 XPU产品路线图涵盖客户端、边缘和云端,助力英特尔在未来五年内实现Z级计算。
打造真正持续运行且极具沉浸感的计算体验,并让数十亿用户实时访问,需要现有算力的 1000 x(千倍级)提升。而算力提升的背后,英特尔正在布局和推动从晶体管、封装、存储到互连的诸多技术创新。近日,我们也在IEDM会议上分享了相关内容。为实现这一目标,除了硬件改进之外,我们还需要全新算法和软件架构。
今天的互联网之所以能够改变我们的世界,正是因为它建立在开放标准之上。为此,英特尔致力于通过利用并完善现有行业标准以及创建全新标准,为实现未来互联体验提供技术基础。
从沉浸式虚拟世界到增强现实体验,正是技术的赋能为我们开创了更多可能,而这也是我们持续前行的动力。我们相信,让每个人都获得 1 Petaflop (每秒进行千万亿次浮点运算)的算力和在1 毫秒传输1 PB(Petabyte,千万亿字节)数据,这一梦想终将照进现实。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。