HPE发布用于AI和高性能计算的新超级计算机平台和服务器

HPE表示,正在更新其高性能计算平台产品组合。扩展的产品线包括了几款新的HPE Cray Supercoming EX系统,以及两款新的HPE Proliant服务器,并且这些服务器针对AI工作负载进行了优化,包括大型语言模型训练和微调。

HPE表示,这些系统是为那些要解决全球最棘手问题的研究机构设计的,针对的是更传统的高性能计算工作负载,例如DNA测序和股票交易自动化,而不是专注于AI工作负载。

这些产品利用了超级计算机制造巨头Cray的专业技能(Cray在2019年被HPE收购),也是同类产品中首批采用100%无风扇直接液体冷却系统架构制造的机器,架构涵盖了机器的每一层包括计算节点、网络和存储。

其中包括Cray Supercomputing EX154n Accelerator Blade,这款刀片系统将在明年年底推出,旨在大幅缩短完成超级计算作业所需的时间,还可以处理AI工作负载,为此它可以在一个机柜中容纳多达224个Nvidia全新Blackwell GPU。每个加速器刀片都配备一个Nvidia Grace Blackwell NVL4超级芯片,总共可容纳4个通过NVLink连接的Blackwell GPU,并通过NVLink-C2C与2个Nvidia Grace CPU配对。

新的HPE Cray Supercomputing EX4252 Gen 2 Compute Blade计算刀片将于明年春季推出,它更像是一个传统的超级计算平台,因为经过了优化,可以为更广泛的计算应用提供支持。

但是它缺乏GPU硬件,这可能会降低其在AI方面的用处,但就传统工作负载而言,它是一款强大的产品,在单个机柜中最多可容纳98304个CPU核心,是同类产品中最强大的单机架系统。每个核心配置了8个由AMD制造的第五代EPYC CPU,可提供极高的CPU密度,使客户能够在比以前小得多的空间内实现更高性能的计算。

为了配合新的Cray Supercomputing EX型号,HPE还推出了下一代百亿亿次级互连产品组合,捆绑了支持高达400千兆位/秒速度的网络接口控制器、电缆和交换机。此外,还有新的存储系统和服务软件值得期待。

新的网络基础设施名为HPE Slingshot Interconnect 400,线速是上一代互连的2倍。它还支持自动拥塞管理和自适应路由等高级功能,意味着它可以动态重新路由和优化连接,以确保它所支持的任何给定工作负载的延迟尽可能低。明年秋季这款产品将面向基于最新HPE Cray系统的集群推出。

至于HPE Cray Supercomputing Storage System E2000,它提供的输入/输出容量性能是HPE前代超级计算机存储系统的2倍多。在底层,它利用开源的Lustre文件存储系统,减少与I/O操作相关的空闲时间。这一切都使得存储读写速度比以前快得多,而且明年初推出的时候超级计算操作性能也会有显著提高。

最后还有新推出的HPE Cray Supercomputing User Services Software,该软件旨在通过优化系统效率、管理功耗等新功能来改善HPE超级计算平台的用户体验。

适用于AI工作负载的新型HPE ProLiant Compute XD服务器

Cray超级计算机针对更广泛的高性能计算工作负载进行了优化,而新的HPE ProLiant Compute XD服务器则是专为当今几乎每个企业都渴望拥抱的、那些至关重要的AI工作负载设计的。

HPE高级副总裁、高性能计算和人工智能基础设施解决方案总经理Trish Damkroger表示,企业和政府对“自主AI计划”越来越感兴趣,因为这些计划使他们能够完全控制自己的AI模型和训练数据。但对于自主AI,这些组织需要使用一些极其强大的硬件,而这正是ProLiant Compute XD服务器所提供的。

HPE在今年3月推出了首批用于AI的ProLiant Compute服务器,但XD型号是一种全新的系列,经过优化可支持部署大型高性能AI集群。HPE一直在和Nvidia密切合作开发这些系统,对系统进行微调以支持最先进的大型语言模型。

这次推出的新型号包括HPE ProLiant Compute XD688,这是两者中功能最强大的一款,面向优先考虑性能而非成本的客户,旨在进行AI训练和推理,客户可以选择8个Nvidia H200 SXM Tensor Core GPU或者5个机架机箱中配置相同数量的Nvidia Blackwell GPU。这是一个液冷系统,将于明年初上市,大约和Nvidia推出Blackwell GPU的时间是相同的。

客户除了Nvidia的硬件之外还有更多选择。HPE最近宣布推出HPE ProLiant Compute XD685的独立版本,这个版本配备了8个AMD Instinct MI325X加速器和2个AMD EPYC CPU(而不是Nvidia的硬件),后者也将于明年初上市销售。

至于风冷式HPE ProLiant Compute XD680服务器,它是一种替代方案,面向那些希望优化性价比、同时仍能处理最苛刻的AI训练、调优和推理任务的客户。它没有使用Nvidia的GPU,而是配备了8个英特尔Gaudi 3 AI加速器,这些加速器被挤进一个紧凑的节点中。这款系统很快就将上市销售,发布日期定于下个月。

这两款新服务器都采用了HPE的Integrated Lights-Out技术进行远程管理,指定授权人员可以从任何位置访问这些系统,与传统的带内网络访问相比安全性更高。

HPE表示,对于那些希望加快现场部署的客户,新的Proliant XD服务器类产品附带了可选服务,例如安装、定制、集成和验证,以及在企业自己的制造设施内进行全面测试。

“我们的客户依靠我们来加快他们的AI系统部署,利用我们在交付、部署和服务完全集成系统方面数十年的经验,更快速、更高效地实现价值,”Damkroger说道。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2024

11/15

10:33

分享

点赞

邮件订阅