HPE公司高级技术部门副总裁Mike Vildibill在接受采访时指出,功耗预算限制将终结现有超级计算机的设计模式——即采用多个独立节点并在其间进行数据传输。
HPE公司的超大规模超级计算机思路似乎将立足其Machine类共享内存方案扩展而来。
目前,各主要超级计算机大国——包括中国、日本、美国以及欧洲各国——都希望能够构建起拥有1百亿亿次处理能力的超大规模超级计算机。这意味着该设备每秒将能够完成1百亿亿次浮点运算。
目前的超级计算机属于千万亿次级别,其性能衡量单位为千万亿次。与之相比,越大规模系统的速度将提升上千倍。
英特尔-克雷为阿拉贡国家实验室打造的Aurora系统拥有180千万亿次运算能力,拥有5万个独立的x64与第三代至强Phi节点,总功耗为13兆瓦。每个节点能够交付3.6万亿次运算能力。然而,英特尔公司在推动至强Phi家族芯片的发展当中遇到了巨大难题,因此重新回归设计阶段。也正因为这一影响,Aurora的上线时间已经由原本计划中的2018年推迟到2021年或2022年左右。
美国能源部(简称DoE)下辖的PathForward计划负责为超大规模计算项目提供资金,并于去年6月向六家供应商授予合约,用于资助此类硬件、软件与应用的研发工作。其中具体包括:AMD、克雷、HPE、IBM、英特尔以及英伟达。
PathForward计划的目标,是在2021年之前向美国政府至少提供一套具有超大规模容量的系统方案。今年3月,能源部提交的一份预算申请显示,目前正有三套系统处于构思阶段当中:
目前尚不清楚Frontier与El Capitan系统将由哪些厂商负责交付。不过可以看到,六家供应商应该会两两结对,那么除去已经确定的英特尔与克雷合作开发Aurora系统之外,接下来的组合很可能是HPE加IBM以及AMD加英伟达——这显然吻合CPU加GPU的配伍思路。
将于2021年推出的Aurora系统将拥有20到40兆瓦功耗预算,5万个标称节点,而这也将成为Aurora系统的初始发展标准。
HPE公司的Vildibill表示,目前存在各类包含数万个节点的超算设计蓝图,其中每个节点皆拥有自己的缓存、存储器以及I/O功能。然而,这些节点无法以合理的方式扩展至超大规模水平。
很明显,大家无法直接选取180千万亿次、5万节点加13兆瓦的系统,并简单将其扩展至超大规模级别。因为这意味着我们需要将节点数量增加5.6倍至28万个,并由此带来理论上的73兆瓦运行功耗。
必须加以调整,从而满足能源部对超大规模超级计算机的功耗限制。
如果某一节点上的软件需要的数据不在其内存当中——而是存在于另一节点的内存中,则会引发实际问题。这意味着另一节点必须接收对目标数据块的调用请求,将其打包并发送给请求节点。这需要消耗时间、CPU计算周期、IO通道资源以及功耗——换言之,时间与能源。
在HPE的超大规模系统当中,各处理节点仍然拥有自己的本地内存,但这些节点会直接构建于CPU核心之上或周边,即处于相同的处理器包之内。如此一来,相当于消除了像DIMM内存那样位于外部总线之上的情况。这些节点随后利用光子进行互连——换言之,其利用光脉冲直接将信息传入及传出处理芯片。
在理念上,内存、光速网络与计算核心的物理性紧密结合应该能够使得计算机在不消费过多电力的前提下扩展至超大规模水平。毕竟光纤连接的功耗水平远低于铜线。HPE公司研究员兼副总裁Paolo Faraboschi已经构想出10块万亿级处理器利用每秒1 TB连接接入这样的本地内存。
目前,智能手机与其它紧凑型设备同样倾向于将内存固定在CPU核心之上,因此在超级计算机中应用这种设计思路也完全在情理之中。
在HPE公司的思路当中,上万甚至数十万个节点与大量内存将通过其HyperX架构以及拥有高双工端口数的光子路由器进行连接。HPE实验室的研究人员们正在积极开发全硅光子器件,其能够在多条光通道之间进行激光切换,并通过节点网络进行高速数据传输。
HyperX.拥有超立方体与序列化蝶形拓扑扩展方式,并配备一种DAL自适应路由算法。该拓扑结构能够将处理器分组为所谓多个维度,某一维度中的各处理器都与该维度中的其它处理器直接连接。
大家可以将一个维度想象成蝴蝶的翅膀。每个维度都与其它维度拥有直接连接。维度跳数为1,而这一数字会随着自某一维度内的处理器到另一维度内的其它处理器的过程而增加——不过HPE方面表示,尽管如此,该跳数仍然远低于其它拓扑结构方案。
如此一来,在处理器上运行的代码将利用HyperX光子结构并加载存储语义以访问共享内存资源池。HPE公司设计利用Gen-Z作为内存语义协议,而AMD公司正是Gen-Z联盟的成员。内存制造商美光同样是其中一员,因此其可能负责提供芯片连接型内存以供AMD CPU在这类设备当使用。
在HPE公司发布的超大规模方案当中,运行在节点处理器上的软件将使用并共享存储顺指针以访问数据,而无需考虑其究竟存储在本地内存当中还是另一节点的内存当中。如果互连链路速度足够快——每秒能够移动数百GB数据——则信息将得到有效加载,节点间的计算与存储资源将拥有透明化与原子化特性,从而避免给系统带来性能瓶颈。
另外,这种方法还意味着各数据块不必在节点间进行明确的复制,并可利用锁定及其它机制将数据块提交回内存以避免争用。相反,全部处理过程都应在光子结构层中以快速化、透明化且原子化方式实现,这在理想情况下应该能够有效降低功耗与延迟水平。
从本质上讲,HPE公司必须证明在利用这一技术时,访问某一节点中内存内数据的速度与访问特定节点中内存内数据的速度能够保持一致。在此之后,CPU高速缓存将开始介入,随后该缓存工作集正式开始接受计算处理。
总结来讲,HPE公司打算将其共享内存技术的剩余部分剥离出Machine项目研究,进一步加以完善,并将其部署在美国能源部的超大规模项目当中。我们可以想象,HPE公司很可能选择AMD作为其CPU合作伙伴,而美光则将以内存供应商的身份出现。那么,HPE最终负责的将是Frontier还是El Capitan呢?请大家拭目以待。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。