HPE与英伟达携手为AI训练打造“交钥匙”超算方案

HPE与英伟达表示正为客户提供构建模块，可用于组装同布里斯托大学Isambard-AI超级计算机同架构的迷你版本，用以训练生成式AI和深度学习项目。

但目前价格尚未公布，希望数字友好。

HPE与英伟达表示正为客户提供构建模块，可用于组装同布里斯托大学Isambard-AI超级计算机同架构的迷你版本，用以训练生成式AI和深度学习项目。

两家公司正联手销售一款基于HPE Cray EX2500架构及英伟达Grace Hopper超级芯片的模块化机器，其上运行的则是两家公司共同提供的软件工具栈。

该系统将于本周在科罗拉多州召开的SC23高性能计算（HPC）大会上公开演示，设计目标是通过预配置和预测试的完整技术栈，让组织更轻松地启动并运行AI训练。当然，一切要等价格公布之后才有定论。

根据HPE的介绍，该系统是首款采用四GH200超级芯片节点配置的系统，就是说每个节点将包含4块英伟达高端芯片。每块超级芯片都拥有72核Arm架构Grace CPU与Hopper GPU，并配备480 GB的LPDDR5x内存与144 GB HBM3e高带宽内存。

这些节点采用HPE的Slingshot互连技术，这项技术属于以太网的超集，添加了高性能计算（HPC）所必需的诸多功能。

虽然硬件成本相当可观，但HPE表示这套特殊的解决方案允许客户先从小规模起步，随后根据需求灵活扩展。

HPE高性能计算、人工智能与实验室执行副总裁Juston Hotard在采访中表示，“已经有一部分客户发布了搭载Grace Hopper超级芯片的产品，但我们的EX2500仍然独一无二，因为它可作为统一的单位进行部署，全部冷却、供电和计算板件均部署在同一模块之内。”

他解释道，这意味着该系统“不仅为客户提供了非常简单的入门选项，同时还具备广阔的扩展空间。”

作为方案中的软件技术栈，HPE带来了自己的机器学习开发环境（Machine Learning Development Environment）。这是一套用于训练生成式AI模型的平台，主要基于HPE在2021年收购自Defined AI的技术。

方案中还包含英伟达的AI Enterprise套件，这是一系列AI工具和框架的集合，包括TensorFlow、PyTorch、英伟达RAPIDS与TensorRT软件库，以及Triton推理服务器等。客户还可以获得HPE的Cray编程环境，这是一套用于代码开发、移植和调试的工具组合。

Hotard表示，AI训练是目前计算密度最大的工作负载之一，因此对计算架构的要求也比较特殊。

“我们都知道，云架构是围绕单一服务器资源的最大化利用设计而成的。因此在面对工作负载时，这类方案倾向于将任务拆分成一个个较小的部分。”

“但AI工作负载，特别是训练和大规模微调类负载，则有着截然不同的特性。在某些情况下，这些工作负载需要将整座数据中心视为单一计算机来运行。AI工作负载需要运行在几百甚至数千个节点之上，并要求所有计算、互连和存储资源都要像在超级计算机内那样高度一致地规模化运行。”

当然，这套新系统的服务对象仅限那些掌握充足财务预算的组织，不过HPE目前拒绝透露关于成本的具体信息。Hotard表示价格将在不久之后对外公布。

英伟达科学项目经理Jack Wells宣称，基准测试结果显示，在使用Llama 2处理大语言模型（LLM）推理工作负载时，基于GH200的单一节点比双至强CPU服务器快100倍。

他声称，“生成式AI正在重构科学计算思路，并带动起极为巨大的市场需求。”他同时强调，HPE与英伟达的这款产品已经吸引到多家客户。

其中包括苏黎世联邦理工学院的超级计算机、波兰Cyfronet、洛斯阿拉莫斯国家实验室，以及布里斯托大学的Isambard-AI系统（计划部署5448块英伟达GH200超级芯片）。

HPE表示，该服务将从12月登陆30多个国家的市场。除了来自公共部门和研究机构的AI创新中心客户之外，该项目预计还将吸引到不少企业巨头的关注。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

HPE与英伟达携手为AI训练打造“交钥匙”超算方案

来源：至顶网计算频道

2023

11/14

15:35

分享

点赞

Mistral AI公布环境审计报告揭示AI隐藏成本

科技园率领九家突破性 AI 科企亮相 2025 世界人工智能大会 推动国家"人工智能+"愿景 加速产业转型升级

认为AGI和AI超级智能将揭示生命真谛的想法

剑桥咨询CEO蒙蒂·巴洛探寻科技前沿新机遇

AI如何悄然改变我们居住的城市面貌

谷歌推出无代码Opal工具，助力构建AI迷你应用

AI模型中隐性有害特征的无声传播现象

当进步不再让人感到归属：为何许多人对加入AI迁移心存犹豫

企业数据库与数据云迁移实施指南

1MW机架与供应链韧性：规划未来数据中心

新型AI架构推理速度比大语言模型快100倍，仅需1000个训练样本

Alexa+预览：一场近乎哲学的体验测试

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

HPE Gen12：英特尔至强6加持，数据中心和边缘计算的“新宠”

专访DeepMind CEO：我们距离实现AGI只需5-10年

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

科技园率领九家突破性 AI 科企亮相 2025 世界人工智能大会推动国家"人工智能+"愿景加速产业转型升级