HPE表示,这些系统是为那些要解决全球最棘手问题的研究机构设计的,针对的是更传统的高性能计算工作负载,例如DNA测序和股票交易自动化,而不是专注于AI工作负载。
这些产品利用了超级计算机制造巨头Cray的专业技能(Cray在2019年被HPE收购),也是同类产品中首批采用100%无风扇直接液体冷却系统架构制造的机器,架构涵盖了机器的每一层包括计算节点、网络和存储。
其中包括Cray Supercomputing EX154n Accelerator Blade,这款刀片系统将在明年年底推出,旨在大幅缩短完成超级计算作业所需的时间,还可以处理AI工作负载,为此它可以在一个机柜中容纳多达224个Nvidia全新Blackwell GPU。每个加速器刀片都配备一个Nvidia Grace Blackwell NVL4超级芯片,总共可容纳4个通过NVLink连接的Blackwell GPU,并通过NVLink-C2C与2个Nvidia Grace CPU配对。
新的HPE Cray Supercomputing EX4252 Gen 2 Compute Blade计算刀片将于明年春季推出,它更像是一个传统的超级计算平台,因为经过了优化,可以为更广泛的计算应用提供支持。
但是它缺乏GPU硬件,这可能会降低其在AI方面的用处,但就传统工作负载而言,它是一款强大的产品,在单个机柜中最多可容纳98304个CPU核心,是同类产品中最强大的单机架系统。每个核心配置了8个由AMD制造的第五代EPYC CPU,可提供极高的CPU密度,使客户能够在比以前小得多的空间内实现更高性能的计算。
为了配合新的Cray Supercomputing EX型号,HPE还推出了下一代百亿亿次级互连产品组合,捆绑了支持高达400千兆位/秒速度的网络接口控制器、电缆和交换机。此外,还有新的存储系统和服务软件值得期待。
新的网络基础设施名为HPE Slingshot Interconnect 400,线速是上一代互连的2倍。它还支持自动拥塞管理和自适应路由等高级功能,意味着它可以动态重新路由和优化连接,以确保它所支持的任何给定工作负载的延迟尽可能低。明年秋季这款产品将面向基于最新HPE Cray系统的集群推出。
至于HPE Cray Supercomputing Storage System E2000,它提供的输入/输出容量性能是HPE前代超级计算机存储系统的2倍多。在底层,它利用开源的Lustre文件存储系统,减少与I/O操作相关的空闲时间。这一切都使得存储读写速度比以前快得多,而且明年初推出的时候超级计算操作性能也会有显著提高。
最后还有新推出的HPE Cray Supercomputing User Services Software,该软件旨在通过优化系统效率、管理功耗等新功能来改善HPE超级计算平台的用户体验。
适用于AI工作负载的新型HPE ProLiant Compute XD服务器
Cray超级计算机针对更广泛的高性能计算工作负载进行了优化,而新的HPE ProLiant Compute XD服务器则是专为当今几乎每个企业都渴望拥抱的、那些至关重要的AI工作负载设计的。
HPE高级副总裁、高性能计算和人工智能基础设施解决方案总经理Trish Damkroger表示,企业和政府对“自主AI计划”越来越感兴趣,因为这些计划使他们能够完全控制自己的AI模型和训练数据。但对于自主AI,这些组织需要使用一些极其强大的硬件,而这正是ProLiant Compute XD服务器所提供的。
HPE在今年3月推出了首批用于AI的ProLiant Compute服务器,但XD型号是一种全新的系列,经过优化可支持部署大型高性能AI集群。HPE一直在和Nvidia密切合作开发这些系统,对系统进行微调以支持最先进的大型语言模型。
这次推出的新型号包括HPE ProLiant Compute XD688,这是两者中功能最强大的一款,面向优先考虑性能而非成本的客户,旨在进行AI训练和推理,客户可以选择8个Nvidia H200 SXM Tensor Core GPU或者5个机架机箱中配置相同数量的Nvidia Blackwell GPU。这是一个液冷系统,将于明年初上市,大约和Nvidia推出Blackwell GPU的时间是相同的。
客户除了Nvidia的硬件之外还有更多选择。HPE最近宣布推出HPE ProLiant Compute XD685的独立版本,这个版本配备了8个AMD Instinct MI325X加速器和2个AMD EPYC CPU(而不是Nvidia的硬件),后者也将于明年初上市销售。
至于风冷式HPE ProLiant Compute XD680服务器,它是一种替代方案,面向那些希望优化性价比、同时仍能处理最苛刻的AI训练、调优和推理任务的客户。它没有使用Nvidia的GPU,而是配备了8个英特尔Gaudi 3 AI加速器,这些加速器被挤进一个紧凑的节点中。这款系统很快就将上市销售,发布日期定于下个月。
这两款新服务器都采用了HPE的Integrated Lights-Out技术进行远程管理,指定授权人员可以从任何位置访问这些系统,与传统的带内网络访问相比安全性更高。
HPE表示,对于那些希望加快现场部署的客户,新的Proliant XD服务器类产品附带了可选服务,例如安装、定制、集成和验证,以及在企业自己的制造设施内进行全面测试。
“我们的客户依靠我们来加快他们的AI系统部署,利用我们在交付、部署和服务完全集成系统方面数十年的经验,更快速、更高效地实现价值,”Damkroger说道。
好文章,需要你的鼓励
即刻报名参加2024 AI创新者大会暨PEC·提示工程峰会,与百位AI创新者一起围观“AI企业”如何解“企业AI”落地难题。
即刻报名参加2024 AI创新者大会暨PEC·提示工程峰会,与百位AI创新者一起预见“AI超级个体”。
即刻报名参加2024 AI创新者大会暨PEC·提示工程峰会,与百位AI创新者现场“预见2025”。
戴尔负责边缘计算、战略和执行的高级副总裁Gil Shneorson对CRN表示:“因此,我们已经开始着手有效创建边缘云的工作。”“它仍然是唯一一款能将所有一切结合在一起的边缘运营软件。目前还没有其他类似的软件。”