HPE正在为橡树岭国家实验室(ORNL)建造两台新的超级计算机:Discovery将接替Frontier,使用HPE的GX5000 Cray百亿亿次超级计算机,用于融合人工智能和高性能计算(HPC)时代,配备K3000 DAOS存储选项,以及一个Lux AI系统。
Discovery将使用GX5000超级计算机进行基于物理的建模、仿真、数据驱动的AI模型以及量子计算测试平台功能。它将同时拥有基于DAOS的K3000存储系统和基于Lustre的E2000存储系统。HPE表示,该系统在CPU、GPU、加速器、网络、软件、存储和液冷方面都具备最先进的能力。ORNL目前运营着HPE建造的基于EX2000的百亿亿次Frontier超级计算机,该计算机使用Cray EX架构和Clusterstor E1000 Lustre并行文件系统。截至2025年6月,Frontier在TOP500全球排行榜上排名第2,被阿贡实验室的Aurora超越。全闪存GX5000比目前的Cray EX4000更紧凑,每个机架需要的数据中心空间减少25%,并使用HPE最新一代Slingshot互连技术Slingshot 400,其51.2 Tbps交换机ASIC提供400 Gbps线路速度,是Slingshot 200速度的两倍。EX4000比ORNL使用的EX2000变体更大更强大。
HPE总裁兼首席执行官Antonio Neri表示:"当我们为橡树岭国家实验室建造Frontier并开启百亿亿次计算时代时,我们在超级计算历史上达到了顶峰,这是美国的胜利。我们很自豪能够在这一领导性创新的基础上,与美国能源部、ORNL和AMD建立强有力的公私合作伙伴关系,建造Discovery和Lux,加速下一个科学发现和AI创新时代。"
Lux将是一个基于直接液冷ProLiant Compute XD685的专用多租户AI系统,配备AMD Instinct MI355X GPU、EPYC CPU和Pensando网络,为美国各地的研究人员提供类似云的访问主权AI工厂进行训练和推理。
橡树岭领导计算设施科学主任Bronson Messer表示:"我们期望这两个系统将为我们的生产力带来范式转变,在各个关键科学研究和领导领域达到无与伦比的收益。"
GX5000每个满配机架可提供高达7500万IOPS,相比之下,配备18个全闪存SSU(可扩展存储单元)的Cray E2000机架可提供5400万IOPS,高出39%,而Frontier的E1000存储子系统可提供1800万IOPS。它的机架占用空间也比E4000小25%。
K3000是首个工厂制造的DAOS(分布式异步对象存储)存储系统,补充了现有的E2000,即基于Lustre文件系统的HPE Cray超级计算存储系统。HPE表示,基于DAOS的存储系统在全球IO500存储基准测试中排名第1(阿贡国家实验室的Aurora)和第2(莱布尼茨超级计算中心的SuperMUC),两者的存储基准测试得分是接下来30个存储系统的四倍。
E2000系统架构有四个主要元素:系统管理单元(SMU)、元数据单元、数据单元(存储节点)和扩展单元。
K3000 DAOS配置看起来要简单得多,也快得多。
DAOS存储引擎(存储节点)是一个1 RU HPE ProLiant DL360 Gen12服务器,配备20个EDSFF插槽用于NVMe RI E3.S SSD。K3000 DAOS机架中最多可以有40个这样的存储节点。
K3000机架的容量取决于机架中存储节点的数量,最少配置4个存储节点,最多40个(配备后门热交换器)。平均配置是20个存储节点。配备20个SSD(每个容量15.4TB)的40个存储节点的最大原始容量为12.32 PB。可用容量取决于为特定客户情况选择的数据保护/冗余布局。
有四种DAOS存储节点密度可供选择,其中三种性能优化配置:
K3000 8EDSFF SSU(服务器存储单元)控制器(每个节点8个SSD)
K3000 12EDSFF SSU控制器(每个节点12个SSD)
K3000 16EDSFF SSU控制器(每个节点16个SSD)
还有一个容量优化配置,采用K3000 20EDSFF SSU控制器,每个节点20个SSD,提供三种E3.S SSD容量:3.84TB、7.68TB和15.4TB。据了解这些是PCIe gen 4驱动器。
HPE高级杰出技术专家Johan Lombardi将在11月16日的DAOS用户组会议上讨论即将发布的DAOS 2.8版本,该会议与超级计算2025活动同期举行。
Q&A
Q1:Discovery超级计算机有什么特殊功能?
A:Discovery使用HPE的GX5000 Cray百亿亿次超级计算机,用于基于物理的建模、仿真、数据驱动的AI模型以及量子计算测试平台功能,同时配备基于DAOS的K3000存储系统和基于Lustre的E2000存储系统。
Q2:K3000 DAOS存储系统相比传统存储有什么优势?
A:K3000是首个工厂制造的DAOS存储系统,配置比Lustre E2000更简单快速。GX5000每个满配机架可提供7500万IOPS,比E2000的5400万IOPS高出39%,机架占用空间也比E4000小25%。
Q3:Lux AI系统主要用途是什么?
A:Lux是基于直接液冷ProLiant Compute XD685的专用多租户AI系统,配备AMD Instinct MI355X GPU、EPYC CPU和Pensando网络,为美国各地研究人员提供类似云的访问主权AI工厂进行训练和推理。
好文章,需要你的鼓励
华盛顿大学Pedro Domingos教授提出的张量逻辑是一种革命性的AI编程语言,它通过将逻辑推理与张量代数在数学层面统一,实现了符号AI和神经网络的深度融合。该语言仅使用张量方程这一种构造,就能优雅地实现从Transformer到形式推理、从核机器到图模型等多种AI范式,更重要的是开辟了在嵌入空间中进行可靠推理的新方向,有望解决大型语言模型的幻觉和不透明性问题,成为推理、数学和编码模型的理想语言。
上海AI实验室等机构联合提出FrameThinker框架,革命性地改变了AI处理长视频的方式。该系统采用"侦探式"多轮推理,先快速扫描全视频获得概览,再有针对性地深入分析关键片段。通过两阶段训练和认知一致性验证,FrameThinker在多个视频理解基准测试中准确率平均提升10.4%,计算效率提高20倍以上,为AI视频理解领域带来突破性进展。
科技巨头IBM今日宣布推出新的区块链数字资产平台,专为金融机构和受监管企业设计。该平台名为"数字资产避风港",将为银行、企业和政府提供比特币、以太坊、稳定币和代币化资产的安全管理服务。平台由IBM与数字钱包基础设施提供商Dfns合作开发,支持超过40个公链和私链的全生命周期管理,并集成第三方身份验证和反洗钱合规工具。
复旦大学团队创建MedQ-Bench基准,首次系统评估AI模型医学影像质量评估能力。研究覆盖五大成像模式,设计感知-推理双层评估体系,意外发现医学专用AI表现不如通用AI。结果显示最佳AI模型准确率仅68.97%,远低于人类专家82.50%,揭示了AI在医学影像质控应用中的现实挑战和改进方向。