HPE表示,这些系统是为那些要解决全球最棘手问题的研究机构设计的,针对的是更传统的高性能计算工作负载,例如DNA测序和股票交易自动化,而不是专注于AI工作负载。
这些产品利用了超级计算机制造巨头Cray的专业技能(Cray在2019年被HPE收购),也是同类产品中首批采用100%无风扇直接液体冷却系统架构制造的机器,架构涵盖了机器的每一层包括计算节点、网络和存储。
其中包括Cray Supercomputing EX154n Accelerator Blade,这款刀片系统将在明年年底推出,旨在大幅缩短完成超级计算作业所需的时间,还可以处理AI工作负载,为此它可以在一个机柜中容纳多达224个Nvidia全新Blackwell GPU。每个加速器刀片都配备一个Nvidia Grace Blackwell NVL4超级芯片,总共可容纳4个通过NVLink连接的Blackwell GPU,并通过NVLink-C2C与2个Nvidia Grace CPU配对。
新的HPE Cray Supercomputing EX4252 Gen 2 Compute Blade计算刀片将于明年春季推出,它更像是一个传统的超级计算平台,因为经过了优化,可以为更广泛的计算应用提供支持。
但是它缺乏GPU硬件,这可能会降低其在AI方面的用处,但就传统工作负载而言,它是一款强大的产品,在单个机柜中最多可容纳98304个CPU核心,是同类产品中最强大的单机架系统。每个核心配置了8个由AMD制造的第五代EPYC CPU,可提供极高的CPU密度,使客户能够在比以前小得多的空间内实现更高性能的计算。
为了配合新的Cray Supercomputing EX型号,HPE还推出了下一代百亿亿次级互连产品组合,捆绑了支持高达400千兆位/秒速度的网络接口控制器、电缆和交换机。此外,还有新的存储系统和服务软件值得期待。
新的网络基础设施名为HPE Slingshot Interconnect 400,线速是上一代互连的2倍。它还支持自动拥塞管理和自适应路由等高级功能,意味着它可以动态重新路由和优化连接,以确保它所支持的任何给定工作负载的延迟尽可能低。明年秋季这款产品将面向基于最新HPE Cray系统的集群推出。
至于HPE Cray Supercomputing Storage System E2000,它提供的输入/输出容量性能是HPE前代超级计算机存储系统的2倍多。在底层,它利用开源的Lustre文件存储系统,减少与I/O操作相关的空闲时间。这一切都使得存储读写速度比以前快得多,而且明年初推出的时候超级计算操作性能也会有显著提高。
最后还有新推出的HPE Cray Supercomputing User Services Software,该软件旨在通过优化系统效率、管理功耗等新功能来改善HPE超级计算平台的用户体验。
适用于AI工作负载的新型HPE ProLiant Compute XD服务器
Cray超级计算机针对更广泛的高性能计算工作负载进行了优化,而新的HPE ProLiant Compute XD服务器则是专为当今几乎每个企业都渴望拥抱的、那些至关重要的AI工作负载设计的。
HPE高级副总裁、高性能计算和人工智能基础设施解决方案总经理Trish Damkroger表示,企业和政府对“自主AI计划”越来越感兴趣,因为这些计划使他们能够完全控制自己的AI模型和训练数据。但对于自主AI,这些组织需要使用一些极其强大的硬件,而这正是ProLiant Compute XD服务器所提供的。
HPE在今年3月推出了首批用于AI的ProLiant Compute服务器,但XD型号是一种全新的系列,经过优化可支持部署大型高性能AI集群。HPE一直在和Nvidia密切合作开发这些系统,对系统进行微调以支持最先进的大型语言模型。
这次推出的新型号包括HPE ProLiant Compute XD688,这是两者中功能最强大的一款,面向优先考虑性能而非成本的客户,旨在进行AI训练和推理,客户可以选择8个Nvidia H200 SXM Tensor Core GPU或者5个机架机箱中配置相同数量的Nvidia Blackwell GPU。这是一个液冷系统,将于明年初上市,大约和Nvidia推出Blackwell GPU的时间是相同的。
客户除了Nvidia的硬件之外还有更多选择。HPE最近宣布推出HPE ProLiant Compute XD685的独立版本,这个版本配备了8个AMD Instinct MI325X加速器和2个AMD EPYC CPU(而不是Nvidia的硬件),后者也将于明年初上市销售。
至于风冷式HPE ProLiant Compute XD680服务器,它是一种替代方案,面向那些希望优化性价比、同时仍能处理最苛刻的AI训练、调优和推理任务的客户。它没有使用Nvidia的GPU,而是配备了8个英特尔Gaudi 3 AI加速器,这些加速器被挤进一个紧凑的节点中。这款系统很快就将上市销售,发布日期定于下个月。
这两款新服务器都采用了HPE的Integrated Lights-Out技术进行远程管理,指定授权人员可以从任何位置访问这些系统,与传统的带内网络访问相比安全性更高。
HPE表示,对于那些希望加快现场部署的客户,新的Proliant XD服务器类产品附带了可选服务,例如安装、定制、集成和验证,以及在企业自己的制造设施内进行全面测试。
“我们的客户依靠我们来加快他们的AI系统部署,利用我们在交付、部署和服务完全集成系统方面数十年的经验,更快速、更高效地实现价值,”Damkroger说道。
好文章,需要你的鼓励
国际能源署发布的2025年世界能源展望报告显示,全球AI竞赛推动创纪录的石油、天然气、煤炭和核能消耗,加剧地缘政治紧张局势和气候危机。数据中心用电量预计到2035年将增长三倍,全球数据中心投资预计2025年达5800亿美元,超过全球石油供应投资的5400亿美元。报告呼吁采取新方法实现2050年净零排放目标。
维吉尼亚理工学院研究团队对58个大语言模型在单细胞生物学领域的应用进行了全面调查,将模型分为基础、文本桥接、空间多模态、表观遗传和智能代理五大类,涵盖细胞注释、轨迹预测、药物反应等八项核心任务。研究基于40多个公开数据集,建立了包含生物学理解、可解释性等十个维度的评估体系,为这个快速发展的交叉领域提供了首个系统性分析框架。
AMD首席执行官苏姿丰在纽约金融分析师日活动中表示,公司已准备好迎接AI浪潮并获得传统企业计算市场更多份额。AMD预计未来3-5年数据中心AI收入复合年增长率将超过80%,服务器CPU收入份额超过50%。公司2025年预期收入约340亿美元,其中数据中心业务160亿美元。MI400系列GPU采用2纳米工艺,Helios机架系统将提供强劲算力支持。
西湖大学王欢教授团队联合国际研究机构,针对AI推理模型内存消耗过大的问题,开发了RLKV技术框架。该技术通过强化学习识别推理模型中的关键"推理头",实现20-50%的内存缩减同时保持推理性能。研究发现推理头与检索头功能不同,前者负责维持逻辑连贯性。实验验证了技术在多个数学推理和编程任务中的有效性,为推理模型的大规模应用提供了现实可行的解决方案。