扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
超级计算机制造商Cray近日提前提前展示了他们即将发布的“Baker”超级计算机,该产品的正式命名为XE6。尽管Cray要到今年晚些时候才会出货这款硬件系统,但是已经接到了不少对这款千万亿次设备的订单,而且Cray也将筹备一次规模盛大的发布。
Cray XE6超级计算机
XE6是Cray的下一代超级计算,也是首款旨在向一系列高性能计算应用提供持续的petaflops性能的x86设备。尽管这款新的超级计算机和现有的XT6(因此保留了针对第6代皓龙处理器的“6”命名)采用了相同的AMD CPU,新的Gemini系统网络为更高可扩展性和性能打下了基础。
Cray表示,新架构将能够扩展到100teraflops的原始性能,并为那些可以利用数十万甚至一百多万个CPU核心的应用提供多pataflops性能。因此,XE6成为Cray针对生产用超级计算机的顶级产品,拥有这样一台超级计算机的成本在200万美元以上。
XE6集成了XT6产品线的很多基本特性。最重要的是,两款系统都采用了皓龙6100(Magny-Cours)计算刀片。因此,XT6可以利用Gemini部件更换SeaStar互连硬件来升级到XE6。同样地,XT5系统也可以通过相同方式升级到XE5。
Cray XE6刀片:左边是2个Gemini互连(刀片背面),4个双路服务器节点和相关内存条
另外,XE6还将采用最近改良了的Cray Linux Environment (CLE)作为操作系统,其中增加了针对ISV代码的集群兼容模式。尽管据称新操作系统至少支持500K的核心,但它真正的上限要在首个大型XE6系统部署之后进行测试才能知道。
如上所述,关键设计特性是Gemini,它是XE6高端功能的基础。Cray可扩展系统群组副总裁Barry Bolding表示:“Gemini实际上是我们专门为多核时代而设计的互联技术。它比以前的SeaStar互联技术更进一步地突破了障碍。”
Cray Gemibi互连架构
Gemini支持一种“高基数”的网络,交付了极高的通信速率(是SeaStar的100多倍)以及更短的延迟(是SeaStar的1/3)。总体来说,一个告诉路由器不是采用了多个窄端口,而不是更少的宽端口。尽管这过程中存在一些挑战,但它的设计能够更好地转换引脚带宽以降低延迟,从而削减成本。在这种情况下,更高的性能允许XE6扩展到100万个甚至更多个CPU核心。
从SeaStar到Gemini的转变对于Cray来说是一个重要举措,同时也是五年来在架构方面的首个重大变革。它与老的SeaStar网络唯一的相似之处就是两者共享了相同的三位环面拓扑和无开关设计。Gemini实际上与Cray基于向量的超级计算机X2(Black Widow)中所采用的互连技术更为相似,基本上可以说是该设计的升级版本。据Bolding称,Cray相信这种高基数的架构将是Cray未来十年内所有顶级超级计算机所依赖的架构。
Gemini实现的另一项有趣的功能就是,支持全局地址空间。众所周知,全局内存是SMP设备中的一项特性,但是对于分布式内存系统来说,只能通过软硬件虚拟化来实现。据Bolding称,XE6将是首款在MPP设计中实现了全局寻址功能的高性能计算系统。
Gemini硬件中的全局内存支持让应用可以获得非本地节点中的一部分内存,并将其视为自己拥有的内存(不会干扰操作系统)。你可以使用Co-Array Fortran (CAF)、Unified Parallel C (UPC)甚至是SHMEM等PGAS语言来编写并行应用,利用这种共享内存层。相比讯息传递数据来说,这些语言以更直接的方式来处理较大内存设备。尽管PGAS语言不如MPI编程语言那么流行,但是随着系统逐渐超出讯息调用代码范围之外,它将变得越来越受人们的青睐。Cray在DARPA High Agency’s High Productivity Computing Systems项目下开发的Chapel语言是该公司首个支持分区全局地址空间的自有编程环境。
除了全局地址支持外,Gemini还在恢复链路故障和执行自适应路由方面具有某种智能性。例如,因为每个节点有多个通信通道,所以可以通过重新路由传输来实现在一个通道中的降级。另一个相关功能实现了刀片的热插拔(无需系统宕机),而这是通过稳定网络流量、数据包重新路由、更换刀片、然后恢复网络传输来完成的。
Gemini芯片本身是由TSMC采用90nm基数制造的。它比SeaStar模片更大,但是每个Gemini芯片可以管理两个节点,因此它取代了2个SeaStar处理器的位置。据Bolding称,Gemini的能耗要比它所取代的2个芯片略高,但是对于额外的功能和性能来说这是值得的。
现在已经有不少“财大气粗”的用户排着队订购XE6,其中包括美国能源部的国家能源研究科学计算中心(NERSC)、英国HECToR(High-End Computing Terascale Resource)超级计算机、韩国气象局(KMA)、国家核安全局、(NNSA)以及国家海洋和大气管理局(NOAA)。Cray还将向美国空军研究实验室、北极地区超级计算中心以及美国陆军工程研究与发展中心交付3部XE6超级计算机。也就是说,目前已经接受订购的XE6系统总价值2亿美元。
虽然目前XE6的确切出货时间还不得而知,但是Cray仍坚持之前Q3投产的时间表。当然,这对超级计算机Cray来说是一个好消息。Cray在第一季度的销售额开始有缓慢的增长,因此如果该公司打算突破3.05~3.25亿美元年收入目标的话,那么XE6需要在2010年下半年获得很大的份额。因为他们已经公布的很多装机都是在年底进行部署的,因此结果还很难说。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者