当前,数据中心对于算力的需求持续增加,如何实现高的算力供给,在多租户情况下保证性能表现和业务安全性,云原生技术是很好的实现方式。
会计算的网络 融计算与通信于一身
数据和计算量的爆炸性增长需要更灵活的架构,而云原生超级计算架构满足了这种需求。超级计算需要会计算的网络,网络成为计算的重要部分。
NVIDIA网络事业部亚太区市场开发高级总监宋庆春告诉记者,云原生超级计算让数据中心拥有超算的高性能,同时也把云数据中心的灵活性和安全性带到超算平台。云原生将会是未来算力平台的发展趋势。
InfiniBand网络是天生的面向云原生超级计算的网络,其提供了网络计算、大规模易扩展、集中式软件定义网络、IBTA标准规范等特性。
宋庆春说,NVIDIA Quantum-2平台是一个会计算的网络,真正契合了超级计算和云原生对网络的需求。
这款产品能够提供每秒400Gb/s的高吞吐量及先进的多租户支持功能,将网速提高了一倍,网络端口数量增加了三倍。它在性能提升3倍的同时,还将数据中心网络所需的交换机数量减少了6倍,与此同时,数据中心的能耗和空间各减少量7%。
NVIDIA Quantum-2平台还通过先进的网络计算、动态路由、拥塞控制等技术实现了多租户的性能隔离,确保可靠的数据吞吐量,不受用户或者应用需求高峰的影响;NVIDIA Quantum-2 SHARP v3网格计算技术可为AI应用提供超出上一代产品32倍的加速引擎能力,借助NVIDIA UFM Cyber-AI平台,提供网络管理能力,包括预测性维护等;集成纳秒级精度的时钟系统可以同步分布式应用,减少等待及空闲时间。
Quantum-2平台的核心是全新的Quantum-2 InfiniBand交换机,其具备64个400Gbps端口或者128个200Gbps端口,交换能力超出上一代Quantum约5倍。
此外,NVIDIA Quantum-2平台在主机端提供了两个网络选项,NVIDIA ConnectX-7网卡和NVIDIA BlueField-3 InfiniBand DPU。其中,ConnectX-7基于7纳米工艺设计,包含80亿个晶体管,其传输速率是上一代产品ConnectX-6的两倍,还使RDMA、GPUDirect Storage、GPUDirect RDMA和网络计算的性能翻倍;NVIDIA BlueField-3 DPU也是采用7纳米工艺设计,包含220亿个晶体管,提供16个64位的Arm CPU。
3U一体云原生架构赋能无限算力资源
纵观数据中心的发展,其由原来的大型机时代运行非常关键的单一任务变成软件定义数据中心运行多个业务,如何优化利用资源成为关键,而借助SDN、数据中心解耦、微服务等技术可以解决资源利用的瓶颈,但如何提升扩展性变成另外一个棘手的问题。
在此背景下,NVIDIA DPU解决了数据中心的扩展效率问题,又实现了性能隔离和安全。DPU可以被看作是数据中心加速计算模型的第三个计算单元,用NVIDIA创始人黄仁勋的话说则是“未来计算的三大支柱之一”。
而它之所以被给予如此厚望,主要因为DPU是一种新型可编程处理器,它结合了行业标准的、高性能及软件可编程的多核ARM CPU架构、高性能网络接口和各种灵活和可编程的加速引擎于一身,可以卸载AI、机器学习、安全、电信和存储等应用,并提升性能。
宋庆春说,数据中心既需要提供超算的算力,又能提供云的灵活性和安全性,这就需要重新设计数据中心。在重新设计时,就需要把数据中心中的各个部分功能进行重新分配,也就是CPU、GPU、DPU的一体设计。
DPU是融计算与通信于一体的网络设备,而基于DPU的云原生架构,由DPU执行通信框架、存储框架、安全框架和业务隔离,这样CPU和GPU资源都释放给应用,从而让业务性能得到更优的发挥。
比如最新的BlueField-3一款进一步优化了基础架构卸载和加速计算的DPU,它针对多租户、云原生环境进行了优化,提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务。作为业内首款400G以太网和NDR InfiniBand DPU,BlueField-3采用的是Arm处理器,具备16颗物理核心和18M IOPs弹性块存储能力,相比上一代产品来说其加速计算能力提升了5倍、加密速度提升了4倍。
宋庆春表示,DPU的出现让DPU、GPU、CPU 3U一体新型数据中心架构成为现实,数据中心成为新的计算单元,实现数据中心中最优的性能。“DPU在未来云原生中的地位非常重要,如果没有DPU,安全策略和业务、通信策略、存储策略都运行到同一个CPU上面,既没有办法获得最高性能,也无法保障每个功能的最好发挥。”
直面现代零信任 NVIDIA云原生软件定义安全技术
网络安全已经成为最大的数据安全漏洞,零信任的时代已经到来。现在数据量越来越大,数据传输速度越来越快,各种异构数据频繁出现,在这种情况下传统的安全策略和思路已经无法满足当前数据中心的安全需求。
网络安全威胁日渐加剧,为助力客户未雨绸缪应对日渐复杂的威胁,NVIDIA发布了一款零信任网络安全平台。利用该平台的一整套功能,网络安全行业可构建实时保护客户数据中心的解决方案。
NVIDIA零信任网络安全平台提供一个新的思路,那就是通过AI的深度学习方式来进行高效可扩展的安全防御,而不是根据安全顾问对于恶意攻击或者是其他安全特定模型的识别而进行安全防御。深度学习的方式采用的是正常和异常的识别来进行安全防御,而传统的方式是利用好和坏或者对与错的方式来识别。
零信任安全平台结合了三种技术—— NVIDIA BlueField DPU、NVIDIA DOCA和NVIDIA Morpheus网络安全人工智能框架。开发合作伙伴通过该平台可实现应用程序与基础设施隔离,增强下一代防火墙的性能,并利用加速计算和深度学习的力量来持续监控和检测威胁,从而大幅提高数据中心的安全性,而这一切的处理通过NVIDIA加速性能比普通服务器快600倍。
宋庆春说,NVIDIA并不是提供安全解决方案的公司,也并不会变成整体安全解决方案的供应商,只是提供一个平台,让提供安全解决方案的供应商更容易使用NVIDIA的AI、DPU技术。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。