在现代系统架构中,存在着大量不断变化的系统软件(主要集中在控制平面内),相应的工作负载则随时游走在芯片之间,借此获得更高收益、改善系统整体安全性。但究其根本,计算引擎再怎么交替加载,其实际计算任务仍需要在某个位置实际完成。
借助“Cassini”Slingshot 11网卡配合“Rosetta”Slingshot以太网交换机ASIC,HPE已经把一部分计算和通信控制平面中的消息传递接口管理(MPI)协议任务剥离出去。相较于由网卡本身负责处理,HPE对于这些常用于分布式HPC应用程序和CPU到GPU AI训练框架的通信负载,显然有着自己的改造规划。
HPE工程师们将这项技术称为流触发通信,其已经被应用在橡树岭国家实验室“Frontier”百亿亿次超级计算机当中。在这里,无数设备共同为百亿亿级恐怖算力提供芯片支持。在最近一篇论文中,HPE展示了新的MPI转移方法,借此将典型的GPU感知MPI通信与GPU流感知/触发方法明确区分了开来。
总体来讲,对于常规的GPU感知MPI软件,英伟达与AMD两家大厂会在节点之内使用自己的GPU间点对点通信机制——一方是NVLink,另一方则是Infinity Fabric。但对位于不同节点的GPU间的MPI数据交换(常见于大型模拟/模型运行及大型AI训练任务),MPI数据的移动则仍在沿用几十年前由InfiniBand适配器开创的远程直接内存访问方法。具体来讲,这种方法允许在GPU和网卡之间直接传输数据,无需与主机CPU的网络堆栈进行任何交互。
这些都是不错的方案,但即使是在现代MPI堆栈当中,要想使用上述GPU感知方法,仍然需要由CPU线程来同步各节点间的操作、设置数据在计算引擎间的移动。论文作者写道,“这就意味着所有通信和同步操作,都将发生在GPU的内核边界。”
整个过程如下图所示:
而HPE为Cassini适配器和Rosetta ASIC设计的流触发技术则不同,GPU内核操作将被纳入队列并放进并发流中,相当于把GPU内核操作流打包成命令描述符以供稍后触发,再为其附加上控制操作。最重要的是,现在这些操作将由GPU控制处理器执行,不再依赖于CPU。
下图所示,为整个流触发过程:
这就是超级计算机的秘诀所在:整个系统中无数增量变化相加,即可在性能和规模上实现阶跃函数级的改进。正是这种对细节的关注和把控,才让HPC和AI能够充分发挥每个网络堆栈、每个计算框架的能力,真正让性能得到跨越式发展。这种新式流触发技术的重要性,绝不只是让HPC和AI应用程序的性能翻倍;更关键的是,它证明了少量多次增量步骤原理,让我们了解到超级计算机系统正是由硬件架构和系统软件层面的点滴设计堆砌而来。
为了测试MPI的这项流触发GPU加载技术,HPE从能源部CORAL-2超级计算机采购软件堆栈中借来了Nekbone基准测试方案(能源部也正是借这套基准测试工具,建立起三台百亿亿次超算设备)。Nekbone是Navier-Stokes求解器Nek5000中的关键内核之一。从Nekbone中提取出来的,用于性能测试的微基准内核之一则名为Faces。HPE正是使用Faces来测试基于AMD Epyc处理器和AMD Instinct GPU的节点内核,但论文并未明确提到测试的具体执行地点。可以肯定的是,Faces测试分两个场景进行:首先采用八节点集群,每个节点包含八个MPI进程;第二轮测试同样是八节点,但每节点只对应一个MPI进程。
在八进程每节点场景下,Faces测试性能比普通MPI高出10%,如下图所示:

而在每节点单MPI进程时,性能增幅则为4%到8%:
HPE指出,目前这项研究才刚刚起步,他们正努力“尝试全面转移ST通信语义选项,希望能充分发挥新接口的性能优势。”
但让我们好奇的是,把MPI负载交给DPU不是更合理吗?也许从长远来看,终极答案确实如此。但目前还有相当一部分架构并不包含DPU,所以把部分MPI负载分流给GPU应该是个不错的过渡性思路。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。