在3U一体数据中心新加速计算架构中,CPU承担通用计算业务应用的工作负载,GPU解决并行计算的工作负载,DPU承担加速数据移动的工作负载,互联互通的网络重要性不言而喻。
在GTC 2022上,NVIDIA宣布了一系列的网络产品更新,其中包括Spectrum-4以太网平台以及NVIDIA OVX 系统等。
Spectrum-4以太网平台让连接更高效更安全
数据中心呈现指数级增长,服务器和应用层面对网络带宽的要求越来越高,同时还要更好的安全性和强大的功能。为了满足这些需求,一个可以在大规模应用场景提供高性能、低延时以及高级的虚拟化和模拟仿真支持的以太网平台,是一个必不可少的解决方案。
NVIDIA Spectrum-4是新一代的以太网平台,将为大规模数据中心基础设施提供所需的超高网络性能和强大安全性。
NVIDIA网络专家崔岩告诉记者,Spectrum-4以太网平台不光是一款交换机产品,包含Spectrum-4交换机、ConnectX-7智能网卡和BlueField-3 DPU。“Spectrum-4以太网平台和Quantum-2 InfiniBand平台均包括BlueField-3 DPU,BlueField-3 DPU最大的作用就是卸载、加速和隔离数据中心基础设施,实现软件定义、硬件加速的网络、存储和安全。在网络、存储、安全性能大幅提升的同时,还通过DOCA软件架构提供强大可编程性和向后兼容性。”
其中,Spectrum-4交换机实现了纳秒级计时精度,相比普通毫秒级数据中心提升了五到六个数量级。这款交换机还能加速、简化和保护网络架构,支持多种加密、解密、加速功能。与上一代产品相比,其每个端口的带宽提高了2倍,交换机数量减少到1/4,功耗降低了40%,可以替代更多原有的交换机,使得拓扑结构更简单、管理更容易,从能耗到空间占用等等方面都会带来好处。
NVIDIA Spectrum-4 ASIC和SN5000交换机系列基于台积电4N工艺,包含1000多亿个晶体管以及经过简化的收发器设计,具有领先的能效和总拥有成本。
崔岩表示,Spectrum-4 400G交换机更高效、更安全、更节能省电。凭借支持128个400GbE端口的51.2Tbps聚合ASIC带宽,以及自适应路由选择和增强拥塞控制机制,Spectrum-4优化了基于融合以太网的RoCE (RDMA over Converged Ethernet)网络架构,并显著提升了数据中心的应用速度。
ConnectX-7智能网卡具有四个方面的优势:加速软件定义的网络、提供从边缘到核心的安全性、存储性能上的提升、精准计时为数据中心应用程序和时间敏感型基础设施提供更精准的时间同步。
NVIDIA BlueField-3 DPU和DOCA数据中心基础设施软件组成,能够大幅加速大规模云原生应用。而且BlueField-3 DPU还可以实现零信任安全,把应用域和基础设施域进行隔离,保障客户端的应用和基础设施端的数据安全。
BlueField-3 DPU可以提供更好的编程能力,NVIDIA也会同步更新DOCA SDK的开发平台,使更多的开发者能够基于BlueField-3 DPU平台开发软件定义网络、存储和安全的应用程序。同时DOCA上也会提供更多的服务,让用户直接采用基于容器的服务,支撑网络上面的业务。
崔岩说,Spectrum-4不只是一个网络平台,还会与NVIDIA其他的平台软件和应用进行整合,提供更好的以太网连接,达到最好的网络应用效果支撑上层应用。“我们通过与生态系统合作可提供多种应用场景的解决方案,配合Spectrum-4以太网平台和Quantum-2 InfiniBand平台可以为客户构建更高性能、更低延时、更安全的网络架构,更好地支撑上层业务应用负载和AI加速负载。”
总之,由Spectrum交换机、BlueField DPU和ConnectX智能网卡组成的Spectrum平台能够提高AI应用、数字孪生和云基础架构的性能和可扩展性,为现代数据中心带来极高的效率和可用性。
互连技术满足多样化工作负载要求
在GTC 2022上,NVIDIA发布了用于驱动大规模数字孪生的NVIDIA OVX计算系统。NVIDIA OVX专为运行NVIDIA Omniverse(实时物理级准确世界模拟和3D设计协作平台)中的复杂数字孪生模拟而设计。
OVX服务器由8个NVIDIA A40 GPU、3个NVIDIA ConnectX-6 Dx 200Gbps网卡、1TB系统内存和16TB NVMe存储组成。
OVX计算系统可以从由8台OVX服务器组成的单节点 扩展到通过NVIDIA Spectrum-3交换架构连接的一个或多个OVX SuperPOD(由32台OVX服务器组成),来加速大规模数字孪生模拟。
NVIDIA网络市场总监孟庆表示,未来,OVX服务器会搭载Spectrum-4实现集群的扩展和性能提升。“目前数据中心正在向着基础设施平台的方向发展,用来支撑从民生到科学探索、人工智能、私人服务等各方面的应用。高带宽、低延迟、数据安全和性能隔离——这是现代数据中心对网络的直接需求。”
伴随着NVIDIA Hopper架构的公布,首款基于Hopper架构的GPU——NVIDIA H100将搭载新的互联技术,第4代NVIDIA NVLink结合全新的外接NVLink Switch,可将NVLink扩展为服务器间的互连 网络,最多可以连接多达256个H100 GPU,相较于上一代采用NVIDIA NVLink只能连接机器内的8个GPU ,数量高出32倍 ,这样让数据处理通路更加顺畅。
孟庆说,NVLink Switch与InfiniBand网络的最大区别是NVLink只连接GPU,通俗说就是“内存网络”,它连接的是GPU计算的内存或者可以理解为显存,它不连接其他所有的通用计算网络。而InfiniBand仍然是AI和超级计算的首选网络。
NVIDIA全新的InfiniBand网络平台,基于英伟达的Quantum-2交换机、ConnectX-7网络适配器、BlueField-3数据处理 器 (DPU)以及所有支持新架构的软件DOCA。
孟庆表示,InfiniBand网络搭载第三代SHARP网络计算,以及精确计时功能,其可以让GPU之间甚至跨节点AI训练的时候,保证数据一致性,承载云原生、AI、HPC集群。
此外,NVIDIA还推出了一款全新的融合加速器H100 CNX,其耦合H100 GPU与NVIDIA ConnectX-7 400Gb/s InfiniBand和以太网智能网卡,可为I/O密集型应用(如企业级数据中心内的多节点AI训练和边缘5G信号处理)提供强劲性能。
我们知道NVIDIA致力于打造3U一体的战略,也就是CPU、GPU、DPU。在今年GTC上,NVIDIA正式推出了Grace CPU。而NVIDIA Hopper架构GPU可与NVIDIA Grace CPU通过NVLink-C2C互联,与PCIe 5.0相比,可将CPU和GPU之间的通信速度提高7倍以上。
孟庆说,NVIDIA NVLink-C2C是一种超快速的芯片到芯片 的互连技术,将支持 NVIDIA GPU、CPU、DPU、SmartNIC和SOC之间实现一致的互连,助力数据中心打造新一代的系统级集成。
结语
随着数据中心对于网络的要求越来越高,网络平台的革新不可缺少。不管是Spectrum-4以太网平台还是NVLink、InfiniBand等互连技术的更新,NVIDIA在数据中心的互联互通方面一直持续持续创新,让数据中心能够应对不断涌现的新型工作负载。
好文章,需要你的鼓励
OpenAI 的 ChatGPT 爬虫存在安全漏洞,可被利用对任意网站发起分布式拒绝服务攻击。攻击者只需向 ChatGPT API 发送一个包含大量重复 URL 的请求,就能触发爬虫对目标网站进行大量访问。此外,该漏洞还可能被用于绕过限制,让爬虫回答查询。这些问题凸显了 AI 系统在安全性方面的潜在风险。
三星即将发布的Galaxy S25 Ultra旗舰手机将带来多项升级,尤其是相机方面。据泄露信息显示,新机将支持高分辨率视频拍摄、超广角微距模式、AI音频擦除等功能,并集成Google Gemini AI助手。这些升级将大幅提升用户体验,令人期待。
本周科技圈风云激荡:TikTok 面临美国最高法院裁决,或将被迫停运;Meta 在美国终止事实核查,引发争议;ChatGPT 推出全新任务功能,为用户提供智能日程管理;Beat Saber 在 Quest 平台销量突破千万,AI 电影制作技术展现惊人潜力。
AI正重塑人类生活的方方面面,从商业到国防再到社会政策。AI计算能力与全球影响力息息相关。各国和企业纷纷投资巨额资金建设数据中心,以增强AI实力。预计到2030年AI市场规模将达1.81万亿美元,掌握最佳数据和计算平台的国家将占据优势地位。AI计算力的竞争已成为21世纪全球力量的决定性较量。