每年发布两轮的全球五百强超级计算机榜单,堪称系统设计领域最新进展的参考依据。其每六个月对世界上速度最快的五百台超级计算机进行排名,相关结果则对新兴技术与处理器的性能以及超算行业如何发展提供了宝贵的指导性信息。
此次最新版本发布于本周一,其中出现了不少个“第一次”。总结而言,目前上榜的所有五百台计算机都能够提供千万亿次或者更高的处理能力。千万亿次指的自然是每秒千万亿次浮点运算,其中的浮点运算指的是一种涉及大数的复杂计算。
由于过去六个月当中计算速度的快速提升,如今全球五百强超算的总体处理能力首次超过了1.5 百亿亿次——用另外一种单位表示,相当于每秒150万万亿次运算。其中去年在能源部橡树岭国家实验室上线的Summit超级计算机为这一总体水平贡献了高达十分之一的力量。凭借着如此强悍的性能,Summit在本次榜单中拔得头筹,其最高计算能力为148.6千万亿次。
亚军则是来自劳伦斯利弗莫尔国家实验室的Sierra设备,其拥有94.6千万亿次浮点运算力。这两套系统都是由IBM公司通过其Power 9 CPU配合英伟达公司旗舰级V100显卡打造的大量服务器构建而成。
然而,尽管美国统治了全球五百强超算榜单的头部空间,但从整体排名来看,情况则有所不同。中国的上榜超算数量几乎达到美国的两倍,此次总计219台。其中速度最快的无疑是神威太湖之光超级计算机,排名第三,以93千万亿次的峰值性能落后于Summit与Sierra。
未来几年,相信超算五百强榜单将会发生重大变化。2021年,美国能源部将启动Frontier,这是一台性能突破1.5百亿亿次的超级计算机,其计算能力相当于现有五百强超算的总和。而该系统在设计上还将被并入后续系统,这套升级系统的性能因此也将更上一层楼。
Frontier之所以如此独特,是因为其采用AMD公司的CPU与显卡构建而成——从传统角度讲,AMD在超算领域的采用比例并不高。目前约有96%的现有五百强系统采用英特尔公司的CPU,而英伟达则负责为大多数超算提供显卡设备。
AMD公司这一令人意外的胜利表明,未来几年超级计算机能力的飞跃也将伴随着竞争态势的转变。目前,市场已经出现了一系列重大变化。就在上个月,HPE公司以13亿美元收购了传奇超级计算机厂商克雷公司,希望借此发展自己的百亿亿次计算系统技术。
图片来源:Randy Wong/劳伦斯利弗莫尔国家实验室。
好文章,需要你的鼓励
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
Meta FAIR团队发布的CWM是首个将"世界模型"概念引入代码生成的32亿参数开源模型。与传统只学习静态代码的AI不同,CWM通过学习Python执行轨迹和Docker环境交互,真正理解代码运行过程。在SWE-bench等重要测试中表现卓越,为AI编程助手的发展开辟了新方向。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
卡内基梅隆大学研究团队发现AI训练中的"繁荣-崩溃"现象,揭示陈旧数据蕴含丰富信息但被传统方法错误屏蔽。他们提出M2PO方法,通过改进数据筛选策略,使模型即使用256步前的陈旧数据也能达到最新数据的训练效果,准确率最高提升11.2%,为大规模异步AI训练开辟新途径。