HPE表示,这些系统是为那些要解决全球最棘手问题的研究机构设计的,针对的是更传统的高性能计算工作负载,例如DNA测序和股票交易自动化,而不是专注于AI工作负载。
这些产品利用了超级计算机制造巨头Cray的专业技能(Cray在2019年被HPE收购),也是同类产品中首批采用100%无风扇直接液体冷却系统架构制造的机器,架构涵盖了机器的每一层包括计算节点、网络和存储。
其中包括Cray Supercomputing EX154n Accelerator Blade,这款刀片系统将在明年年底推出,旨在大幅缩短完成超级计算作业所需的时间,还可以处理AI工作负载,为此它可以在一个机柜中容纳多达224个Nvidia全新Blackwell GPU。每个加速器刀片都配备一个Nvidia Grace Blackwell NVL4超级芯片,总共可容纳4个通过NVLink连接的Blackwell GPU,并通过NVLink-C2C与2个Nvidia Grace CPU配对。
新的HPE Cray Supercomputing EX4252 Gen 2 Compute Blade计算刀片将于明年春季推出,它更像是一个传统的超级计算平台,因为经过了优化,可以为更广泛的计算应用提供支持。
但是它缺乏GPU硬件,这可能会降低其在AI方面的用处,但就传统工作负载而言,它是一款强大的产品,在单个机柜中最多可容纳98304个CPU核心,是同类产品中最强大的单机架系统。每个核心配置了8个由AMD制造的第五代EPYC CPU,可提供极高的CPU密度,使客户能够在比以前小得多的空间内实现更高性能的计算。
为了配合新的Cray Supercomputing EX型号,HPE还推出了下一代百亿亿次级互连产品组合,捆绑了支持高达400千兆位/秒速度的网络接口控制器、电缆和交换机。此外,还有新的存储系统和服务软件值得期待。
新的网络基础设施名为HPE Slingshot Interconnect 400,线速是上一代互连的2倍。它还支持自动拥塞管理和自适应路由等高级功能,意味着它可以动态重新路由和优化连接,以确保它所支持的任何给定工作负载的延迟尽可能低。明年秋季这款产品将面向基于最新HPE Cray系统的集群推出。
至于HPE Cray Supercomputing Storage System E2000,它提供的输入/输出容量性能是HPE前代超级计算机存储系统的2倍多。在底层,它利用开源的Lustre文件存储系统,减少与I/O操作相关的空闲时间。这一切都使得存储读写速度比以前快得多,而且明年初推出的时候超级计算操作性能也会有显著提高。
最后还有新推出的HPE Cray Supercomputing User Services Software,该软件旨在通过优化系统效率、管理功耗等新功能来改善HPE超级计算平台的用户体验。
适用于AI工作负载的新型HPE ProLiant Compute XD服务器
Cray超级计算机针对更广泛的高性能计算工作负载进行了优化,而新的HPE ProLiant Compute XD服务器则是专为当今几乎每个企业都渴望拥抱的、那些至关重要的AI工作负载设计的。
HPE高级副总裁、高性能计算和人工智能基础设施解决方案总经理Trish Damkroger表示,企业和政府对“自主AI计划”越来越感兴趣,因为这些计划使他们能够完全控制自己的AI模型和训练数据。但对于自主AI,这些组织需要使用一些极其强大的硬件,而这正是ProLiant Compute XD服务器所提供的。
HPE在今年3月推出了首批用于AI的ProLiant Compute服务器,但XD型号是一种全新的系列,经过优化可支持部署大型高性能AI集群。HPE一直在和Nvidia密切合作开发这些系统,对系统进行微调以支持最先进的大型语言模型。
这次推出的新型号包括HPE ProLiant Compute XD688,这是两者中功能最强大的一款,面向优先考虑性能而非成本的客户,旨在进行AI训练和推理,客户可以选择8个Nvidia H200 SXM Tensor Core GPU或者5个机架机箱中配置相同数量的Nvidia Blackwell GPU。这是一个液冷系统,将于明年初上市,大约和Nvidia推出Blackwell GPU的时间是相同的。
客户除了Nvidia的硬件之外还有更多选择。HPE最近宣布推出HPE ProLiant Compute XD685的独立版本,这个版本配备了8个AMD Instinct MI325X加速器和2个AMD EPYC CPU(而不是Nvidia的硬件),后者也将于明年初上市销售。
至于风冷式HPE ProLiant Compute XD680服务器,它是一种替代方案,面向那些希望优化性价比、同时仍能处理最苛刻的AI训练、调优和推理任务的客户。它没有使用Nvidia的GPU,而是配备了8个英特尔Gaudi 3 AI加速器,这些加速器被挤进一个紧凑的节点中。这款系统很快就将上市销售,发布日期定于下个月。
这两款新服务器都采用了HPE的Integrated Lights-Out技术进行远程管理,指定授权人员可以从任何位置访问这些系统,与传统的带内网络访问相比安全性更高。
HPE表示,对于那些希望加快现场部署的客户,新的Proliant XD服务器类产品附带了可选服务,例如安装、定制、集成和验证,以及在企业自己的制造设施内进行全面测试。
“我们的客户依靠我们来加快他们的AI系统部署,利用我们在交付、部署和服务完全集成系统方面数十年的经验,更快速、更高效地实现价值,”Damkroger说道。
好文章,需要你的鼓励
在他看来,企业对AI的恐惧源自未知,而破解未知的钥匙,就藏在“AI平台+开源”这个看似简单的公式里。
斯坦福和魁北克研究团队首创"超新星事件数据集",通过让AI分析历史事件和科学发现来测试其"性格"。研究发现不同AI模型确实表现出独特而稳定的思维偏好:有些注重成就结果,有些关注情感关系,有些偏向综合分析。这项突破性研究为AI评估开辟了新方向,对改善人机协作和AI工具选择具有重要意义。
Pure Storage发布企业数据云(EDC),整合其现有产品组合,提供增强的数据存储可见性和基于策略的简化管理。EDC集成了Purity存储操作系统、Fusion资源管理、Pure1舰队管理和Evergreen消费模式等架构元素,提供类云存储管理环境。该方案支持声明式策略驱动管理,让客户专注业务成果而非基础设施管理。同时发布高性能闪存阵列和300TB直接闪存模块,并与Rubrik合作提供网络安全防护能力。
威斯康星大学研究团队提出"生成-筛选-排序"策略,通过结合快速筛选器和智能奖励模型,在AI代码验证中实现了11.65倍速度提升,准确率仅下降8.33%。该方法先用弱验证器移除明显错误代码,再用神经网络模型精确排序,有效解决了传统方法在速度与准确性之间的两难选择,为实用化AI编程助手铺平了道路。