HPE表示,这些系统是为那些要解决全球最棘手问题的研究机构设计的,针对的是更传统的高性能计算工作负载,例如DNA测序和股票交易自动化,而不是专注于AI工作负载。
这些产品利用了超级计算机制造巨头Cray的专业技能(Cray在2019年被HPE收购),也是同类产品中首批采用100%无风扇直接液体冷却系统架构制造的机器,架构涵盖了机器的每一层包括计算节点、网络和存储。
其中包括Cray Supercomputing EX154n Accelerator Blade,这款刀片系统将在明年年底推出,旨在大幅缩短完成超级计算作业所需的时间,还可以处理AI工作负载,为此它可以在一个机柜中容纳多达224个Nvidia全新Blackwell GPU。每个加速器刀片都配备一个Nvidia Grace Blackwell NVL4超级芯片,总共可容纳4个通过NVLink连接的Blackwell GPU,并通过NVLink-C2C与2个Nvidia Grace CPU配对。
新的HPE Cray Supercomputing EX4252 Gen 2 Compute Blade计算刀片将于明年春季推出,它更像是一个传统的超级计算平台,因为经过了优化,可以为更广泛的计算应用提供支持。
但是它缺乏GPU硬件,这可能会降低其在AI方面的用处,但就传统工作负载而言,它是一款强大的产品,在单个机柜中最多可容纳98304个CPU核心,是同类产品中最强大的单机架系统。每个核心配置了8个由AMD制造的第五代EPYC CPU,可提供极高的CPU密度,使客户能够在比以前小得多的空间内实现更高性能的计算。
为了配合新的Cray Supercomputing EX型号,HPE还推出了下一代百亿亿次级互连产品组合,捆绑了支持高达400千兆位/秒速度的网络接口控制器、电缆和交换机。此外,还有新的存储系统和服务软件值得期待。
新的网络基础设施名为HPE Slingshot Interconnect 400,线速是上一代互连的2倍。它还支持自动拥塞管理和自适应路由等高级功能,意味着它可以动态重新路由和优化连接,以确保它所支持的任何给定工作负载的延迟尽可能低。明年秋季这款产品将面向基于最新HPE Cray系统的集群推出。
至于HPE Cray Supercomputing Storage System E2000,它提供的输入/输出容量性能是HPE前代超级计算机存储系统的2倍多。在底层,它利用开源的Lustre文件存储系统,减少与I/O操作相关的空闲时间。这一切都使得存储读写速度比以前快得多,而且明年初推出的时候超级计算操作性能也会有显著提高。
最后还有新推出的HPE Cray Supercomputing User Services Software,该软件旨在通过优化系统效率、管理功耗等新功能来改善HPE超级计算平台的用户体验。
适用于AI工作负载的新型HPE ProLiant Compute XD服务器
Cray超级计算机针对更广泛的高性能计算工作负载进行了优化,而新的HPE ProLiant Compute XD服务器则是专为当今几乎每个企业都渴望拥抱的、那些至关重要的AI工作负载设计的。
HPE高级副总裁、高性能计算和人工智能基础设施解决方案总经理Trish Damkroger表示,企业和政府对“自主AI计划”越来越感兴趣,因为这些计划使他们能够完全控制自己的AI模型和训练数据。但对于自主AI,这些组织需要使用一些极其强大的硬件,而这正是ProLiant Compute XD服务器所提供的。
HPE在今年3月推出了首批用于AI的ProLiant Compute服务器,但XD型号是一种全新的系列,经过优化可支持部署大型高性能AI集群。HPE一直在和Nvidia密切合作开发这些系统,对系统进行微调以支持最先进的大型语言模型。
这次推出的新型号包括HPE ProLiant Compute XD688,这是两者中功能最强大的一款,面向优先考虑性能而非成本的客户,旨在进行AI训练和推理,客户可以选择8个Nvidia H200 SXM Tensor Core GPU或者5个机架机箱中配置相同数量的Nvidia Blackwell GPU。这是一个液冷系统,将于明年初上市,大约和Nvidia推出Blackwell GPU的时间是相同的。
客户除了Nvidia的硬件之外还有更多选择。HPE最近宣布推出HPE ProLiant Compute XD685的独立版本,这个版本配备了8个AMD Instinct MI325X加速器和2个AMD EPYC CPU(而不是Nvidia的硬件),后者也将于明年初上市销售。
至于风冷式HPE ProLiant Compute XD680服务器,它是一种替代方案,面向那些希望优化性价比、同时仍能处理最苛刻的AI训练、调优和推理任务的客户。它没有使用Nvidia的GPU,而是配备了8个英特尔Gaudi 3 AI加速器,这些加速器被挤进一个紧凑的节点中。这款系统很快就将上市销售,发布日期定于下个月。
这两款新服务器都采用了HPE的Integrated Lights-Out技术进行远程管理,指定授权人员可以从任何位置访问这些系统,与传统的带内网络访问相比安全性更高。
HPE表示,对于那些希望加快现场部署的客户,新的Proliant XD服务器类产品附带了可选服务,例如安装、定制、集成和验证,以及在企业自己的制造设施内进行全面测试。
“我们的客户依靠我们来加快他们的AI系统部署,利用我们在交付、部署和服务完全集成系统方面数十年的经验,更快速、更高效地实现价值,”Damkroger说道。
好文章,需要你的鼓励
这项来自麻省理工和滑铁卢大学的研究质疑了在AI文本排序中"思考过程"的必要性。研究者比较了三种文章重排模型:直接判断的StandardRR、先推理再判断的ReasonRR,以及禁用推理功能的ReasonRR-NoReason。实验结果表明,不仅推理过程没有提高排序质量,有时甚至会降低效果。主要原因是推理导致模型倾向于极端判断,难以表达"部分相关"这种微妙关系。即使应用"自洽性"等改进技术,简单直接的判断方式仍然更为高效有效。研究为信息检索系统设计提供了新视角:有时,少即是多。
TAGS是一种创新的医学问答框架,结合了泛医和专医两种视角,通过层次化检索和不确定性验证机制提升医学AI回答的准确性。该框架由穆罕默德·本·扎耶德人工智能大学等机构的研究团队开发,无需任何模型微调即可显著提升包括GPT-4o和DeepSeek-R1在内的大型语言模型在九个医学问答基准测试上的表现。TAGS通过模拟医疗专家协作、结构化知识检索和质量控制,解决了现有方法在复杂医学推理中的短板,为构建更可靠的医学AI系统提供了新思路。
这篇研究提出了时间抽象值学习(OTA)方法,解决离线目标条件强化学习中的长期规划问题。研究团队发现现有分层方法失败的关键在于高层策略无法生成合适子目标,原因是价值函数在长期规划中估计不准确。OTA通过"选项"概念实现时间抽象,有效缩短规划视野,使价值函数能提供更准确的优势信号。在复杂迷宫导航和视觉机器人操作任务中,OTA显著优于现有方法,证明了该方法在处理长期任务时的有效性。
这项研究探索了大语言模型内部可解释特征的形成过程,分析了它们在训练过程中(时间)、模型层级间(空间)和不同规模模型(尺度)的行为变化。研究团队使用稀疏自编码器技术,成功识别出特定语义概念在神经激活中出现的时间点和位置。研究结果显示,不同领域的知识概念在模型训练和规模扩展中存在明确的激活阈值,且在空间分析中发现了早期层特征会在后期层重新激活的现象,这挑战了对变换器模型表示动态的传统认知。