打造HPC E级计算的“高速公路” 中科曙光Torus硅元交换机的“网络革命” 原创

作者：李祥敬

高性能计算和人工智能蓬勃发展的背后不仅需要计算能力的支撑和推动，也离不开高速互连网络的保驾护航。未来，曙光将在计算、存储、网络等核心技术方面进行持续创新，为高性能计算迈向E级计算做出自己的贡献。

至顶网服务器频道 11月23日新闻消息（文/李祥敬）：众所周知，高性能计算机有很多重要的组成部分，其中最主要的三个硬件的部分就是计算、存储和网络。当高性能计算机（HPC）的计算能力从P级跃上E级、超级计算机的计算核心数目从几十万个扩展到几百万个，超大规模计算之下各计算单元如何保持高效互连与协同？

曙光公司高性能计算产品事业部总经理和Intel OPA Marketing Director Joe Yaworski在SC17上正式发布Torus硅元交换机

曙光公司HPC产品事业部总经理李斌用一个形象比喻来形容高性能计算的网络部分和计算单元的关系，“高性能计算机越来越快，如果把计算单元比喻成汽车，我们要把它做得更快就是把计算单位做成超级跑车。这个网络就是道路，我的车再快，如果没有一个好的道路支撑的话，它的速度也发挥不出来。”

同时，高性能计算的网络与大家平时理解的互联网络有很大的不同，我们把高性能计算机“道路”修好，相当于网络的速度、带宽要很大。同时我们要把道路的规划做好，也就是网络的拓扑结构，还有通过网络的路由算法把“交通”控制做好。

“未来计算网络成本要占到整个设备的50%，正是高速网络的重要性，曙光在高性能计算的拓展中把网络作为核心技术进行突破。”李斌说，“Torus架构就是这种投入的成果。”

Torus硅元交换机有什么不一样？

目前大型超级计算机，特别是准E级或未来的E级系统，在系统规模、扩展性、成本、能耗、可靠性等方面仍面临着严峻挑战。其中网络遇到的挑战更大，目前HPC系统普遍采用Mellanox InfiniBand和英特尔Omni-Path。

而本次发布的硅元交换机是全球首款采用Torus架构的高速网络交换机产品，基于它构建的超级计算机互连网络系统具有领先的性能、超强的扩展能力、极佳的容错能力，是迈向E级的最佳网络技术路线。

与传统胖树网络拓扑结构相比，强调邻近互连的Torus直接网络在扩展性上具有明显的优势，且网络成本和系统规模呈线性关系。另外，因为具有很多冗余数据通路和采用动态路由，Torus网络也具有天然的容错性优势，这些都是超大规模系统所需要的网络特性，也是国际主流的高速网络技术发展方向。

李斌介绍说，曙光公司早在2015年的硅立方高性能计算机中就已实现了三维的3D-Torus。目前，曙光的Torus网络技术研究在网络路由算法和硬件架构创新两个方面又有了突破性进展，

Torus网络的维度从3D进化到了6D，提高Torus维度能有效降低大规模系统的最长网络跳数。在软件层面，支持6D-Torus的无死锁动态路由算法已经经过实际环境检验；在硬件层面，本次发布的Torus硅元交换机就是一项重要的硬件实现。

“硅元”是指Torus高维直接网络中的一个单元，一个硅元内部采用3D-Torus拓扑结构，多个硅元可以构建更高维的4D/5D/6D-Torus直接网络。将一个3D-Torus硅元集成到一台模块化交换机，能够极大提高系统集成度和密度，减少网络线缆，降低部署复杂度，降低成本。

Torus硅元交换机可以支持多达192个100Gb高速网络端口，Torus硅元交换机之间通过400Gb专用接口进行互连。通过这样的硬件实现，也提高了Torus高速网络技术的覆盖范围，一些中小规模的高性能计算系统也可以更便捷地享用这项先进技术。

值得一提的是，本次发布的Torus硅元交换机还支持冷板式直接液体冷却，这标志着曙光的液体冷却技术从计算设备延展到了网络系统。液冷技术对提高大规模网络系统的集成度和可靠性、降低能耗等方面同样可以发挥重要的作用。

结语

来源：至顶网服务器频道

0赞

好文章，需要你的鼓励

打造HPC E级计算的“高速公路” 中科曙光Torus硅元交换机的“网络革命” 原创

Torus硅元交换机有什么不一样？

来源：至顶网服务器频道

2017

11/23

07:17

分享

点赞

Google力推手机AI功能引发关注

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

多站点IT基础设施升级指南：告别VMware的替代方案

英伟达继续努力，希望推动AI融入包括HPC在内的一切领域

前景黯淡？即使实现全面普及，生成式AI热潮亦难带来收益

中科曙光与万里数据库战略签约

刚刚！中科曙光大央企合作伙伴会议成功举办！

打破地域、专业限制,“先导杯”AI创新设计赛首向本科生开放

合作超50所高校,“先导杯”引领AI人才培养新范式

不只是AI，企业更需要本地HPC

中科曙光发布“全栈智能气象解决方案”,助力中国气象现代化建设

深涌智能,引领多云异构算力资源管理新时代

土豆洛书大模型,加速AI 应用创新与发展

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: