至顶网服务器频道 11月23日 新闻消息(文/李祥敬):众所周知,高性能计算机有很多重要的组成部分,其中最主要的三个硬件的部分就是计算、存储和网络。当高性能计算机(HPC)的计算能力从P级跃上E级、超级计算机的计算核心数目从几十万个扩展到几百万个,超大规模计算之下各计算单元如何保持高效互连与协同?
曙光公司高性能计算产品事业部总经理和Intel OPA Marketing Director Joe Yaworski在SC17上正式发布Torus硅元交换机
曙光公司HPC产品事业部总经理李斌用一个形象比喻来形容高性能计算的网络部分和计算单元的关系,“高性能计算机越来越快,如果把计算单元比喻成汽车,我们要把它做得更快就是把计算单位做成超级跑车。这个网络就是道路,我的车再快,如果没有一个好的道路支撑的话,它的速度也发挥不出来。”
同时,高性能计算的网络与大家平时理解的互联网络有很大的不同,我们把高性能计算机“道路”修好,相当于网络的速度、带宽要很大。同时我们要把道路的规划做好,也就是网络的拓扑结构,还有通过网络的路由算法把“交通”控制做好。
“未来计算网络成本要占到整个设备的50%,正是高速网络的重要性,曙光在高性能计算的拓展中把网络作为核心技术进行突破。”李斌说,“Torus架构就是这种投入的成果。”
目前大型超级计算机,特别是准E级或未来的E级系统,在系统规模、扩展性、成本、能耗、可靠性等方面仍面临着严峻挑战。其中网络遇到的挑战更大,目前HPC系统普遍采用Mellanox InfiniBand和英特尔Omni-Path。
而本次发布的硅元交换机是全球首款采用Torus架构的高速网络交换机产品,基于它构建的超级计算机互连网络系统具有领先的性能、超强的扩展能力、极佳的容错能力,是迈向E级的最佳网络技术路线。
与传统胖树网络拓扑结构相比,强调邻近互连的Torus直接网络在扩展性上具有明显的优势,且网络成本和系统规模呈线性关系。另外,因为具有很多冗余数据通路和采用动态路由,Torus网络也具有天然的容错性优势,这些都是超大规模系统所需要的网络特性,也是国际主流的高速网络技术发展方向。
李斌介绍说,曙光公司早在2015年的硅立方高性能计算机中就已实现了三维的3D-Torus。目前,曙光的Torus网络技术研究在网络路由算法和硬件架构创新两个方面又有了突破性进展,
Torus网络的维度从3D进化到了6D,提高Torus维度能有效降低大规模系统的最长网络跳数。在软件层面,支持6D-Torus的无死锁动态路由算法已经经过实际环境检验;在硬件层面,本次发布的Torus硅元交换机就是一项重要的硬件实现。
“硅元”是指Torus高维直接网络中的一个单元,一个硅元内部采用3D-Torus拓扑结构,多个硅元可以构建更高维的4D/5D/6D-Torus直接网络。将一个3D-Torus硅元集成到一台模块化交换机,能够极大提高系统集成度和密度,减少网络线缆,降低部署复杂度,降低成本。
Torus硅元交换机可以支持多达192个100Gb高速网络端口,Torus硅元交换机之间通过400Gb专用接口进行互连。通过这样的硬件实现,也提高了Torus高速网络技术的覆盖范围,一些中小规模的高性能计算系统也可以更便捷地享用这项先进技术。
值得一提的是,本次发布的Torus硅元交换机还支持冷板式直接液体冷却,这标志着曙光的液体冷却技术从计算设备延展到了网络系统。液冷技术对提高大规模网络系统的集成度和可靠性、降低能耗等方面同样可以发挥重要的作用。
结语
高性能计算和人工智能蓬勃发展的背后不仅需要计算能力的支撑和推动,也离不开高速互连网络的保驾护航。未来,曙光将在计算、存储、网络等核心技术方面进行持续创新,为高性能计算迈向E级计算做出自己的贡献。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。