HPE SLINGSHOT将平面计算交由GPU控制

在现代系统架构中，存在着大量不断变化的系统软件（主要集中在控制平面内），相应的工作负载则随时游走在芯片之间，借此获得更高收益、改善系统整体安全性。但究其根本，计算引擎再怎么交替加载，其实际计算任务仍需要在某个位置实际完成。

借助“Cassini”Slingshot 11网卡配合“Rosetta”Slingshot以太网交换机ASIC，HPE已经把一部分计算和通信控制平面中的消息传递接口管理（MPI）协议任务剥离出去。相较于由网卡本身负责处理，HPE对于这些常用于分布式HPC应用程序和CPU到GPU AI训练框架的通信负载，显然有着自己的改造规划。

HPE工程师们将这项技术称为流触发通信，其已经被应用在橡树岭国家实验室“Frontier”百亿亿次超级计算机当中。在这里，无数设备共同为百亿亿级恐怖算力提供芯片支持。在最近一篇论文中，HPE展示了新的MPI转移方法，借此将典型的GPU感知MPI通信与GPU流感知/触发方法明确区分了开来。

总体来讲，对于常规的GPU感知MPI软件，英伟达与AMD两家大厂会在节点之内使用自己的GPU间点对点通信机制——一方是NVLink，另一方则是Infinity Fabric。但对位于不同节点的GPU间的MPI数据交换（常见于大型模拟/模型运行及大型AI训练任务），MPI数据的移动则仍在沿用几十年前由InfiniBand适配器开创的远程直接内存访问方法。具体来讲，这种方法允许在GPU和网卡之间直接传输数据，无需与主机CPU的网络堆栈进行任何交互。

这些都是不错的方案，但即使是在现代MPI堆栈当中，要想使用上述GPU感知方法，仍然需要由CPU线程来同步各节点间的操作、设置数据在计算引擎间的移动。论文作者写道，“这就意味着所有通信和同步操作，都将发生在GPU的内核边界。”

整个过程如下图所示：

而HPE为Cassini适配器和Rosetta ASIC设计的流触发技术则不同，GPU内核操作将被纳入队列并放进并发流中，相当于把GPU内核操作流打包成命令描述符以供稍后触发，再为其附加上控制操作。最重要的是，现在这些操作将由GPU控制处理器执行，不再依赖于CPU。

下图所示，为整个流触发过程：

这就是超级计算机的秘诀所在：整个系统中无数增量变化相加，即可在性能和规模上实现阶跃函数级的改进。正是这种对细节的关注和把控，才让HPC和AI能够充分发挥每个网络堆栈、每个计算框架的能力，真正让性能得到跨越式发展。这种新式流触发技术的重要性，绝不只是让HPC和AI应用程序的性能翻倍；更关键的是，它证明了少量多次增量步骤原理，让我们了解到超级计算机系统正是由硬件架构和系统软件层面的点滴设计堆砌而来。

为了测试MPI的这项流触发GPU加载技术，HPE从能源部CORAL-2超级计算机采购软件堆栈中借来了Nekbone基准测试方案（能源部也正是借这套基准测试工具，建立起三台百亿亿次超算设备）。Nekbone是Navier-Stokes求解器Nek5000中的关键内核之一。从Nekbone中提取出来的，用于性能测试的微基准内核之一则名为Faces。HPE正是使用Faces来测试基于AMD Epyc处理器和AMD Instinct GPU的节点内核，但论文并未明确提到测试的具体执行地点。可以肯定的是，Faces测试分两个场景进行：首先采用八节点集群，每个节点包含八个MPI进程；第二轮测试同样是八节点，但每节点只对应一个MPI进程。

在八进程每节点场景下，Faces测试性能比普通MPI高出10%，如下图所示：

HPE SLINGSHOT将平面计算交由GPU控制

而在每节点单MPI进程时，性能增幅则为4%到8%：

HPE指出，目前这项研究才刚刚起步，他们正努力“尝试全面转移ST通信语义选项，希望能充分发挥新接口的性能优势。”

但让我们好奇的是，把MPI负载交给DPU不是更合理吗？也许从长远来看，终极答案确实如此。但目前还有相当一部分架构并不包含DPU，所以把部分MPI负载分流给GPU应该是个不错的过渡性思路。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

HPE SLINGSHOT将平面计算交由GPU控制

来源：至顶网计算频道

2022

08/16

10:20

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

HPE Gen12：英特尔至强6加持，数据中心和边缘计算的“新宠”

据报道，慧与同埃隆.马斯克的X公司签署价值10亿美元的人工智能服务器大单

该需要多少 NVIDIA CUDA Cores ？

未来，就在我们手中

RTX5090震撼发布，一文带你看懂英伟达CES2025发布会。

深度学习最佳 GPU，知多少？

HPE谈2025年合作伙伴激励包：Alletra MP、Private Cloud AI、VM Essentials均属于最高倍薪酬类别

一文读懂 GPU 资源动态调度

2024 AI服务器市场竞争格局

HPE CEO谈超算优势、VM Essentials市场机会和财报业绩

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: