Meta Platforms正在构建所谓全球最快的、专注于人工智能的超级计算机,以处理涉及自然语言处理和计算机视觉的新型高级工作负载。
今天该公司透露,这套名为AI Research SuperCluster(RSC)的超级计算机虽然尚未完成,但已经启动并运行,用于训练具有数十亿参数的大型AI模型。
Meta长期以来一直是人工智能研究领域一个雄心勃勃的参与者,其原因也随着这套最新的超级计算机问世而变得越来越明显。Meta认为,人工智能在所谓元宇宙的发展中,将发挥着重要作用。元宇宙是一种虚拟世界,Meta认为人们将越来越多地聚集在Meta进行社交、工作和娱乐。
Meta AI研究人员Kevin Lee和Shubho Sengupta在一篇博文中这样写道:“我们希望RSC能够帮助我们构建全新的AI系统,例如,可以为那些说不同语言的人们提供实时语音翻译,这样让他们可以在研究项目上无缝地展开协作,或者一起玩AR游戏。最终,RSC相关的工作成果将为下一代主流计算平台——元宇宙——的技术铺平道路,在元宇宙中,AI应用和产品将发挥重要作用。”
Meta研究人员解释说,最近Meta在“自我监督学习”领域取得了长足的进步,这项技术是指算法可通过大量未标记的示例中进行学习,此外,Meta还让AI可通过专注于某些特定领域的输入来实现更高效的推理。
Meta总结说,为了让自我监督式学习和基于转换器的模型发挥全部优点,就需要训练越来越复杂的、适应性更强的AI模型,而这就意味着要处理更多的数据。例如,要开发更先进的计算机视觉模型,需要以更高的数据采样率处理更大更长的视频。
同时,语音识别也需要面对有大量背景噪音、最具挑战性的场景,自然语言处理必须理解不同的语言、口音和方言,因此Meta需要一台比目前现有计算机更强大的超级计算机。
RSC的功能非常强大,在760个Nvidia DGX A100系统中配置了6080个Nvidia最新型A100 GPU,而且这些GPU组合成了DGX节点,节点采用Nvidia高性能Quantum 200 Gb/s InfiniBand实现网络互连。RSC还采用了Pure Storage FlashArrays提供的175 PB存储,以及来自Penguin Computing Altus系统的46 PB缓存存储。
“与Meta传统生产型和研究型基础设施相比,RSC的早期基准测试表明,它运行计算机视觉工作流程的速度提高了20倍,运行Nvidia NCCL的速度提高9倍多,训练大规模NLP的模型快了3倍,这意味训练一个有数百亿参数的模型只需要3周时间,而之前需要9周,”Meta AI研究人员这样表示。

然而,Meta的目标是让RSC变得越来越强大,计划今年年中将实现连接16000个GPU。
除了专注于速度和功率之外,RSC还考虑到了安全性。Meta在人工智能领域的雄心壮志,需要能够使用来自自身生产系统的大量真实数据,所以需要非常小心谨慎地保护这些数据信息。
“RSC的设计从一开始就考虑到了隐私和安全性,因此Meta的研究人员可以使用经过加密的用户数据安全地训练模型,而且这些数据在训练完成之前都一直是加密的,”Lee和Sengupta这样写道。
这些保护措施包括确保RSC与公共互联网隔离,没有直接的入站或出站连接。同时,从Meta的存储系统到GPU的整个路径都是加密的,只有在数据被真正使用之前,才会被解密,不管是在GPU端点,还是内存中。
Constellation Research分析师Holger Mueller表示,主宰虚拟世界的竞赛正如火如荼地展开,AI将成为其中至关重要的一部分。
“毫无疑问,Meta作为对元宇宙抱有远大抱负的主要参与者之一,正在建造他们第一台用于研究目的的AI超级计算机。元宇宙仍处于起步阶段,需要进行大量研究才能真正起飞,因此Meta正在朝着实现这一目标迈出关键的第一步。”
Meta解释说,RSC现在已经启动并运行,很快就会变得越来越强大。今年Meta计划把RSC的GPU数量从6080个增加到16000个,整体AI训练性能提高到当前水平的2.5倍多。
Meta解释说:“我们预计,要让计算能力实现这种阶跃函数式的变化,不仅使我们能够为现有服务打造更准确的AI模型,而且还可以实现全新的用户体验,尤其是在元宇宙中。我们在自我监督式学习和使用RSC构建下一代AI基础设施方面的长期投资,将帮助我们打造基础技术为元界提供动力,并在更广泛的层面上推动AI社区的发展。”
好文章,需要你的鼓励
高带宽闪存技术承诺提供超大容量,但面临极其复杂的工程挑战。该技术将多层NAND芯片堆叠,每层由数百个3D NAND单元层组成,可创造前所未有的存储容量。相比昂贵的HBM内存,HBF使用更便宜但速度较慢的闪存为GPU提供更多存储空间。技术复杂性体现在互连布线的困难,12层HBF堆叠将包含2866个存储层。由于需要英伟达等GPU厂商深度参与和行业标准制定,预计HBF距离商用还需两年以上时间。
罗切斯特理工学院团队开发SPHINX系统,专门测试AI视觉推理能力。该系统可无限生成25类视觉推理题目,测试发现最强的GPT-5准确率仅51.1%,远低于人类75.4%。研究显示AI主要困难在视觉信息提取而非逻辑推理,通过强化学习训练可显著改善表现并迁移到其他任务。
戴尔第三季度营收270亿美元,同比增长11%,创历史新高,主要受AI服务器需求爆发式增长推动。AI服务器订单达123亿美元,全年订单总额300亿美元。基础设施解决方案集团营收141亿美元,增长24%,其中服务器和网络业务表现强劲。存储业务营收39.8亿美元,同比下降1%,但全闪存阵列产品实现双位数增长。公司预计第四季度营收315亿美元,全年AI服务器出货量约250亿美元。
法国理工学院研究团队开发的I-GLIDE系统,通过将复杂设备拆解为多个子系统分别诊断,结合不确定性量化技术,实现了设备剩余寿命预测的重大突破。该系统在NASA飞机引擎数据集上的预测误差比传统方法降低23-39%,同时提供了前所未有的可解释性,能够精确指出具体组件的健康状况,为工业智能维护提供了新的解决方案。