在今年美国丹佛召开的国际高性能计算(SC19)超级计算机国际会议上,并没有出现太多关于全球超算五百强排名变动的新闻。前23位排名与去年保持一致,其他近头部区域的名次变动也主要源自上代系统到期淘汰。不过,也有不少配有加速器的新系统正式亮相,新榜单中有42台开始采用英伟达Tesla GPU。真正让人眼前一亮的,当数在绿色超算五百强榜单中逆袭的富士通新系统,其不仅在性能方面表现强劲,同时也在能源效率方面投入不少心力。
本届于丹佛会议中心召开的SC19大会
但顶级超算缺乏新鲜血液仍然令人们略感失望,因此关于在2021年着手构建下一代百亿亿次系统的声音在本届大会上显得格外响亮。
截至目前,下一代美国能源部百亿亿级计算机系统订单的大赢家主要有AMD、克雷以及英特尔。克雷目前已经成为HPE公司的下辖部门,在全部三个在建的百亿亿次超算项目中出任集成商职务,同时负责提供弹弓互连架构。AMD拿下了橡树岭国家实验室的Frontier系统项目,负责提供CPU与GPU。英特尔则拿下阿贡国家实验室Aurora系统的CPU与GPU订单。第三套系统的相关信息尚未完全公开,但克雷已经被指定为系统构建商。
到目前为止,IBM与英伟达两家先前系统的主要组件供应商都没能在百亿亿次新系统中有所表现。根据已知的消息,能源部计划中的这最后一套系统被定名为El Capitan,IBM与英伟达仍有机会在竞标方面努努力。但即使未能拿下El Capitan大单,两位巨头在高性能计算领域也仍有其他可以发挥的空间。
在SC19大会的筹备与召开期间,英特尔公司在丹佛会议中心附近举办了自己的高性能计算开发者会议。英特尔此次活动的重头戏,当数该公司高级副总裁,架构师,架构、图形与软件业务总经理Raja Koduri的演讲。在此次演讲中,他披露了专为Aurora设计的GPU系统的一系列细节信息。
英特尔CPU与GPU都将采用英特尔公司尚未正式投产的下一代7纳米制程工艺。但愿芯片巨头不要再遇上当初10纳米工艺的生产转化问题,否则相关进度恐怕又要落后。下一代至强CPU代号为Sapphire Rapids。此外,英特尔在本次会议中还公布了其Xe HPC GPU,代号为Ponte Vecchio(以意大利佛罗伦萨的一座桥梁命名)。
英特尔专为高性能计算设计的Ponte Vecchio系列GPU
Ponte Vecchio GPU专为高性能计算类工作负载设计,其中结合有多种不同矢量计算单元。高性能计算GPU的主要工作,在于处理单精度与双精度浮点数学运算。此外,英特尔还将在新方案中支持各类流行的AI数据格式,包括INT8、BFloat16以及FP16等等。
每一块Xe芯片都结合有CPU与GPU计算模式
这套系统设计方案利用英特尔EMIB封装技术将GPU接入高带宽内存(HBM)。Ponte Vecchio GPU还将采用由英特尔的Foveros 3D芯片堆叠技术构建而成的特制内存接口芯片,名为Xe Memory Fabric(XEMF)。XEMF将配合名为“Rambo”的大缓存设计,借此进一步提高可扩展性,用以处理规模愈发庞大的AI模型。
Ponte Vecchio将成为英特尔GPU系列产品中的又一座高峰,其多芯片模块设计在每个模块内部署8块芯片,每块GPU则包含2个模块。英特尔还将利用其EMIB技术将Xe计算单元同内存对接起来。配备有Rambo缓存的XEMF也将运用Foveros 3D堆叠技术。最后,英特尔方面还将推出新型Xe总线,用于实现Xe GPU的全面互连。
英特尔Ponte Vecchio采用专用缓存以提升高性能计算工作负载的可扩展性
英特尔目前还在构建一种新型软件堆栈,希望借此将所有计算芯片捆绑在同一平台之上。用于计算加速的oneAPI平台将全面覆盖CPU、GPU以及FPGA。SC19大会上公布的oneAPI初始版本为0.5 beta版,目前已经在Intel DevCloud上开放访问。英特尔还开发出一款名为Data Parallel C++(DPC++)的新型编程语言,以Khronos的SYCL语言为基础同时添加了英特尔自己的专用扩展。英特尔决定将oneAPI与DPC++作为开源项目开放,希望更多芯片公司能够参与其中并使用这套平台。
英特尔Ponte Vecchio的高性能计算模块
Aurora超级计算机将采用双Sapphire Rapids至强加六块英特尔Ponte Vecchio HPC GPU的组合。其中GPU的互连总线以最近刚刚公布的CXL总线(采用PCIe 5.0物理层)为基础,即前文提到的全新Xe总线,同时配备一块新型交换芯片。
Aurora项目对英特尔来说无疑是一项重大挑战。芯片巨头目前正在构建一套新型软件堆栈,计划利用新的半导体制程工艺与封装技术为Aurora打造全新GPU。这一切都必须在两年之内完成设计、制造与集成。换句话说,英特尔方面必须充分证明自己在软件、制造与设计方面的整体实力。
英特尔公司的Raja Koduri,与阿贡国家实验室副主任Rick Sevens
就在英特尔公布其Aurora百亿亿次超级计算机平台细节信息的同时,AMD方面也披露了自己为Frontier百亿亿次超算打造的软件开发平台。Frontier将是一套全AMD系统,采用EYPC CPU与Radeon Instinct GPU。AMD公司的优势在于其一直在发售独立的GPU产品,但英特尔方面的现成方案只有英特尔第九代集成图形芯片。对于英伟达CUDA,AMD也给出了自己的开源回应方案——ROCM(以及一套对应oneAPI的替代方案)。目前ROCM已经发布了第三个主要版本,能够支持TensorFlow以及PyTorch处理机器学习类工作负载。另外,ROCM也成为Frontier开发人员的核心软件平台,目前Frontier项目中的相当一部分资金都被用于推进ROCM的发展。最后,AMD还在本届SC19大会上公布了围绕EPYC服务器处理器打造的扩展生态系统。
ARM:环保很重要
由ARM自主研发的A64FX处理器搭建的富士通原型系统,表现出极 出色的性能水平与能源效率,并一举拿下本届绿色超算五百强的头名桂冠。此外,这也是一套少见的没有使用加速器(例如GPU或者FPGA)的高性能超级计算机。通过向ARM内核当中添加可伸缩矢量扩展(SVE)这一业界首创的设计思路,这套原型系统获得了强大的浮点运算性能。
富士通A64FX高性能计算处理器。
对ARM来说,另一条大新闻来自英伟达计划利用基于ARM架构的Marvell Thunder X2服务器主板发布的全新机器学习参考系统。英伟达方面将为整个ARM生态系统提供全栈CUDA库支持。说起CUDA,不同于尚处于0.5 beta版本的英特尔oneAPI以及版本3的AMD ROCM,英伟达的CUDA目前已经处于10.2版本。很明显,挑战者们还得慢慢奋斗才能跟上GPU巨头在CUDA生态系统健壮度与成熟度方面的脚步。
微软也为Azure发布了一系列合作关系公告。配合英伟达,微软Azure首次推出“按需超级计算机”实例,在云数据中心内利用Mellanox交换机对接800块英伟达V100 GPU。这项服务的上线,有望以容器方式为高性能计算应用提供资源助力。另外,微软还将其Azure云定位为新型技术平台。
在SC19大会之前,Grahcore与微软就联合宣布,Graphcore系统现在已经正式登陆Azure云。考虑到近期一直没什么振奋人心的消息,此次公告无疑给Graphcore注入了一针强心剂。
虽然用于运行高性能计算工作负载的系统与AI训练用系统之间存在着不少相似之处,但二者同样具有一系列显著差异。正因为如此,市场上才会出现AI训练专用芯片与高性能计算芯片这两种产物。英伟达的V100确实将这两类应用结合于一体,但大多数AI初创企业实际上并不关注高性能计算系统最为重视的双精度浮点数学运算。不过目前情况出现了转机,越来越多的科学家们意识到,AI处理与高性能计算处理器之间确有交集,这一点也在本届SC19大会上得到直观体现。
晶圆级AI初创企业Cerebras公司就在本届大会上公布了其CS-1系统。此前,该公司也曾展示过晶圆级芯片成果,但近来随着他们与阿贡国家实验室以及劳伦斯利弗莫尔国家实验室间合同的敲定,这家年轻的企业开始受到行业的高度关注。
SC19大会上展出的Cerebras CS-1系统。
除了Cerebras之外,本届SC19大会上还出现了其他AI初创企业的身影。Cerebras、Graphcore、Croq以及SambaNova联合小组已经成为新兴力量的代表。其中SambaNova公布了其首款芯片,并介绍了其AI应用型软件定义硬件方案的更多细节信息。该公司的可重配置数据流单元(RDU)采用7纳米制程工艺外加一组整合了计算、内存、地址生成以及结果合并的交换单元架构。作为另一家前途光明的企业,Groq公布了其软件定义硬件平台,其中将内存与计算单元加以结合,能够在单一芯片之内实现1千万亿次运算能力。Groq公司的首款芯片将采用14纳米制程工艺制造。
今年的超级计算大会无疑是英特尔以及一众初创企业展示自身的良好机会。但人们真正关注的,仍然是2021年有望实现的百亿亿次系统。另外,行业对于能源效率问题也保持着高度关注,相信明年将有更多ARM设计方案与我们见面。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。