现在讲到超性能计算的时候经常会讲到百亿亿级(Exascale)这样一个词。就像我们之前曾经达到性能方面的一座座里程碑一样,百亿亿级实际上只是一个算力里程碑。而赛灵思近期推出的Alveo U55C加速器卡,在结合了非常多当今HPC工作负载需要的关键功能之后,为数据中心跨越百亿亿级计算性能,奠定了坚实的基础。
下面,就让赛灵思数据中心事业部高性能计算(HPC)产品经理 Nathan Chang先生带领我们感受一下,Alveo U55C这张强大的加速器卡所具备的独特魅力。
赛灵思数据中心事业部高性能计算(HPC)产品经理 Nathan Chang
虽然商品化计算平台是可以扩展的,但是由架构的僵化,计算的扩展不再只是要增加服务器的数量。冯·诺依曼架构,对数据的快速转移,尤其是让计算引擎能够接受这些数据,是一个非常大的挑战,所以,如何能够在这些不同的函数切换之间准备好数据,是一个非常大的难题。
因此,赛灵思在更小的外型尺寸中给大家带来大型算力,这可以说是Alveo有史以来最多的HBM2。赛灵思都知道,HBM2是功耗最低的存储器,有非常高的带宽。另外Alveo U55C是为高密度流数据、高I/O矩阵数学和求解器,以及需要扩展的一些比较大的计算需求(如大数据分析、人工智能)而专门构建的。
现在,数据中心的计算扩展比以往任何时候都更加容易、更加高效,更易于进行组合和配置,U55C也是赛灵思 Alveo在数据中心领域迈出的一大步。
赛灵思也看到,工作负载的平均规模正在增长,计算平台需要非常简单和高性能的路径来做扩展,对于一些Alveo关键功能的可及性,让从事高性能计算的开发人员能更高效地利用工作负载。
现在赛灵思可以利用现有的开放标准和框架,不管所使用的服务器平台和基础架构如何,都可以将Alveo去扩展到数百张卡上,利用RoCE v2和数据中心DCBx的桥接,再加上200Gbps的带宽,在网络和性能在延迟方面可以跟 InfiniBand抗衡。所有网络构建都可以在现有数据中心的架构里实现。
最后就是MPI集成,它可以让HPC的开发者通过Vitis扩展Alveo的数据流水线。大家应该都听过Vitis平台,它的主要目的是结合硬件,抽象出开发机器级代码的需要,比如说像RTL或者Verilog。另外,赛灵思能够让硬件设计嵌入到整个应用的开发过程中,希望让Alveo、FPGA、SoC、SOM以及Versal ACAP能够变得可获、可用。
可以看到,现在Vitis支持更多的高层次编程语言。像C、C++还有比较现代的Python语言,都开始支持现在主流的AI框架,开发人员还可以通过API和SDK来加速关键工作负载。所以,赛灵思现在不断拓展赛灵思的工具,从而专门针对一些重要而且新兴的技术领域,以解锁计算性能。换句话说,赛灵思拥有CPU、GPU难以实现的性能优势,比如实现“图分析”的功能,还有像有限元分析等等一系列的比较先进的HPC工作负载。可以看到,Vitis涵盖了一些主要的计算和高性能计算方面的工作需求。特别是一些实时应用,例如“图分析”。正因为如此,在这样的基础上进行工作负载设计和加速,比过去要更加容易和自如。
大家也可以看到整个工作负载迁移和演变的方向,主要受到存储器的带宽的限制,赛灵思需要的I/O的数量可以去推动诸如数学元(Math Block)的函数。因此,赛灵思需要解决存储器带宽的瓶颈。如果没有办法解决这些瓶颈,就没办法利用数据中心的规模。
所以,赛灵思的Alveo U55C是专门为大数据和高性能计算工作负载去构建的。它能够实现更高的数据流水线并行性、带来优化的存储器管理、优化整个流水线的数据迁移,以及实现最出色的单位功耗性能。
赛灵思Alveo U55C和最近一次迭代的数据中心加速器卡最大的差别就是赛灵思在计算密度方面提高了一倍,但是赛灵思把它的尺寸从原来的双槽变成了单槽。尽管赛灵思去掉了DDR,但赛灵思在存储器卡方面让HBM2增加了一倍,这就相当于让高带宽的数量是增加了四倍。由于去掉了DDR,所以赛灵思整个TDP 的功耗也下降了。
Alveo U55C三个非常重要的特性:第一,赛灵思用RoCE v2和DCBx还有MPI,在现有网络和基础架构上,为现在的数据中心提供了最尖端的计算集群。第二,现有的应用开发人员可以利用Vitis平台上的一些已有的API、库以及MPI,来扩展他们的工作负载。第三,这是有史以来在最强大的加速器卡。
目前,澳大利亚的国家实验室CSIRO正在构建世界上最大的射电天文天线阵列,每平方公里有13.1万支天线。它的规模是21个节点,用了420张U55C的卡,每个节点20张卡,在集群里每秒通过的数据是15Tb。可以看到,尽管要处理和通过的数据量如此庞大,并且还需要处理一些非常复杂的工作负载,比如光线生成模拟器,以及一些成像相关的功能。
同时,由于地处沙漠中,所以它的电源是来自于可再生能源的供应。只有一个柴油机的发电机作为后备能源储备,因此,它必须在这样的环境中头实现高性能、低功耗。
在此之前,这个实验室也考虑过用GPU卡做集群搭建,但是这样的话,他们就要用双插槽的GPU卡,可能要占用两个PCIe接口,同时也需要每个PU旁边的插槽来处理相关带宽需求,才能为板卡提供支持,这就需要三个PCIe的插槽。赛灵思U55C有板载联网功能,使用的只是一个插槽。
此外,U55C还用LS-DYNA软件的加速计算上。LS-DYNA是在Livermore实验室来构建出来的,它是基于物理学的仿真平台,专门用于计算机辅助工程。
目前LS-DYNA几乎用于每一家汽车厂商,他们主要是用它来进行汽车的撞击测试,以便查看仿真效果,确保汽车在设计方面的安全性和结构方面的完整性。这些不同的汽车车型需要通过非常严苛的防撞测试。在此过程中会有很多的物理测试设计,针对这样的仿真,赛灵思会用到有限元法(FEM)。
LS-DYNA就是一个非常理想的软件,它可以帮助仿真这些非常复杂的系统。这里面有几十万个元素需要引入,同时会变成甚至上亿个自由度,所以在这个过程中,需要进行非常非常多次的运算和等式,才能得出相关的结果。
赛灵思跟LS-DYNA团队合作开发了一段时间,来探索这些在加速方面的机会。在这个过程中发现,他们为了支撑这个仿真求解器,占用了90%的运行时。
所以大家可以看到,这就是赛灵思帮助LS-DYNA来实现的加速——客户可以获得真正有突破性的效果。
最后, Nathan Chang给大家总结三点:第一,赛灵思全新的高性能计算解决方案,支持在现有客户基础架构和网络中进行大规模扩展;第二,它能够为HPC和大数据工作负载带来非常卓越的单位功耗性能,并且可以通过赛灵思集群轻松实现性能扩展;第三,通过面向应用和集群的高层次编程,软件开发者和数据科学家可以解锁自适应计算的优势。
由此可知,Alveo U55C 这款产品具备非常高的算力和HBM密度,能够把这些强大功能带给数据中心市场,同时提供一些非常关键的功能集。另外,它也是商品化的,可以从货架上直接采购,能够给企业级带来非常密集的运算架构、非常高密度的HBM、200GB每秒的联网水平,还能够进行大规模性能扩展,以及对于MPI来讲也能更好地降低功耗。
好文章,需要你的鼓励
富士通的 Monaka 是一款巨大的 CoWoS 系统级封装 (SiP),它有四个 36 核计算小芯片,采用台积电的 N2 工艺技术制造,包含 144 个
ChatGPT还与超级应用WhatsApp完成了集成,同样是这个号码可以直接发短信咨询各种内容,使用方法和web、移动版本一样。
十年前,如果你问某人什么是互联网,他们可能会说它是在计算机屏幕上查看的网页的集合。当今的在线体验依赖于应用程序、设备、流