在现代系统架构中,存在着大量不断变化的系统软件(主要集中在控制平面内),相应的工作负载则随时游走在芯片之间,借此获得更高收益、改善系统整体安全性。但究其根本,计算引擎再怎么交替加载,其实际计算任务仍需要在某个位置实际完成。
借助“Cassini”Slingshot 11网卡配合“Rosetta”Slingshot以太网交换机ASIC,HPE已经把一部分计算和通信控制平面中的消息传递接口管理(MPI)协议任务剥离出去。相较于由网卡本身负责处理,HPE对于这些常用于分布式HPC应用程序和CPU到GPU AI训练框架的通信负载,显然有着自己的改造规划。
HPE工程师们将这项技术称为流触发通信,其已经被应用在橡树岭国家实验室“Frontier”百亿亿次超级计算机当中。在这里,无数设备共同为百亿亿级恐怖算力提供芯片支持。在最近一篇论文中,HPE展示了新的MPI转移方法,借此将典型的GPU感知MPI通信与GPU流感知/触发方法明确区分了开来。
总体来讲,对于常规的GPU感知MPI软件,英伟达与AMD两家大厂会在节点之内使用自己的GPU间点对点通信机制——一方是NVLink,另一方则是Infinity Fabric。但对位于不同节点的GPU间的MPI数据交换(常见于大型模拟/模型运行及大型AI训练任务),MPI数据的移动则仍在沿用几十年前由InfiniBand适配器开创的远程直接内存访问方法。具体来讲,这种方法允许在GPU和网卡之间直接传输数据,无需与主机CPU的网络堆栈进行任何交互。
这些都是不错的方案,但即使是在现代MPI堆栈当中,要想使用上述GPU感知方法,仍然需要由CPU线程来同步各节点间的操作、设置数据在计算引擎间的移动。论文作者写道,“这就意味着所有通信和同步操作,都将发生在GPU的内核边界。”
整个过程如下图所示:
而HPE为Cassini适配器和Rosetta ASIC设计的流触发技术则不同,GPU内核操作将被纳入队列并放进并发流中,相当于把GPU内核操作流打包成命令描述符以供稍后触发,再为其附加上控制操作。最重要的是,现在这些操作将由GPU控制处理器执行,不再依赖于CPU。
下图所示,为整个流触发过程:
这就是超级计算机的秘诀所在:整个系统中无数增量变化相加,即可在性能和规模上实现阶跃函数级的改进。正是这种对细节的关注和把控,才让HPC和AI能够充分发挥每个网络堆栈、每个计算框架的能力,真正让性能得到跨越式发展。这种新式流触发技术的重要性,绝不只是让HPC和AI应用程序的性能翻倍;更关键的是,它证明了少量多次增量步骤原理,让我们了解到超级计算机系统正是由硬件架构和系统软件层面的点滴设计堆砌而来。
为了测试MPI的这项流触发GPU加载技术,HPE从能源部CORAL-2超级计算机采购软件堆栈中借来了Nekbone基准测试方案(能源部也正是借这套基准测试工具,建立起三台百亿亿次超算设备)。Nekbone是Navier-Stokes求解器Nek5000中的关键内核之一。从Nekbone中提取出来的,用于性能测试的微基准内核之一则名为Faces。HPE正是使用Faces来测试基于AMD Epyc处理器和AMD Instinct GPU的节点内核,但论文并未明确提到测试的具体执行地点。可以肯定的是,Faces测试分两个场景进行:首先采用八节点集群,每个节点包含八个MPI进程;第二轮测试同样是八节点,但每节点只对应一个MPI进程。
在八进程每节点场景下,Faces测试性能比普通MPI高出10%,如下图所示:
而在每节点单MPI进程时,性能增幅则为4%到8%:
HPE指出,目前这项研究才刚刚起步,他们正努力“尝试全面转移ST通信语义选项,希望能充分发挥新接口的性能优势。”
但让我们好奇的是,把MPI负载交给DPU不是更合理吗?也许从长远来看,终极答案确实如此。但目前还有相当一部分架构并不包含DPU,所以把部分MPI负载分流给GPU应该是个不错的过渡性思路。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。