高性能计算和人工智能作为主要的数据处理引擎助力技术研究、科学发现和产品开发,推动超级计算进入广泛的商业应用。云原生超级计算平台为业界首次提供了两全其美的方案,既提供了裸机性能,也实现了数据中心的高效率,并且支持现代数据中心零信任模型实现多租户和安全隔离。
NVIDIA网络亚太区高级总监宋庆春告诉记者,为了解决现在数据中心面临的挑战,云原生超级计算技术应运而生。目前数据中心的典型架构是CPU处理应用和基础设施操作,GPU加速应用。不过CPU在承载存储和网络功能的同时也导致效率低下,影响应用性能。
基于此,NVIDIA提出云原生超级计算架构,CPU、DPU、加速器和网络协同工作,实现高性能、绿色、安全的数据中心,实现极致性能、优化设计、节能减排。
其中,BlueField DPU 和 NVIDIA DOCA是新型计算平台的关键。DPU可以卸载存储和网络、安全的功能,GPU和CPU的资源完全释放给业务,提升系统的性能;DOCA提供加速应用的接口,比如计算、存储、安全,充分发挥DPU的卸载和加速功能。
宋庆春说,云原生超级计算架构将原来CPU的基础设施工作负载卸载到BlueField DPU,然后让CPU、DPU、GPU以及其它加速器和网络一起协同工作,提供最优的性能,同时通过新的架构改进可以用更低的成本或者更少的硬件构建更高性能的系统,并降低能效,提升安全。
目前,BlueField-2 DPU已经在很多市场被广泛应用,BlueField-3 DPU也将推向市场,更好地满足云原生超级计算对功能卸载、加速计算方面的需求。比如通过DPU加速计算或者卸载通信,分子动力学的应用已经实现20%以上的性能提升,数学建模应用场景实现将近30%的性能提升,天气预告模型实现大约24%的性能提升。
网络在数据中心扮演了重要的角色,优化网络可以提高数据中心的安全性或者运行效率。云原生超级计算架构用异构网络的方式优化性能,让性能达到极致,同时优化整个数据中心的设计,能够以最少的硬件达到最优的性能,符合节能减排的大趋势。
在TOP500榜单的前100名中,NVIDIA的 InfiniBand网络占有63%的席位,可见构建越快的算力平台越需要更高性能的网络。今年NVIDIA最新一代GPU和InfiniBand网络的组合获得了Green500第一名。Green500前100名中75%的系统在用NVIDIA的 InfiniBand网络。
宋庆春表示,当NVIDIA加速计算技术发展越来越快,AI平台使用场景对高速网络的需求越来越高,InfiniBand网络互连技术除了提升算力性能,还可以提升存储性能。
云原生超级计算离不开交换机上的计算技术,NVIDIA SHARP技术突破了网络带宽极限,并助力实现公有云上的业务性能隔离。“云原生超级计算能够在云上发挥最好的性能,减少业务之间的相互干扰,助力业务尽快上云。”宋庆春说。
2022秋季DPU中国黑客松竞赛
为了更好地推动NVIDIA BlueField DPU和NVIDIA DOCA的发展,2022秋季DPU中国黑客松竞赛9月12日开始官方招募,总共有二十七支团队注册黑客松竞赛,十三支团队参加最终比赛,总共五十一位开发者,其中包括六位女性开发者。
NVIDIA网络技术专家崔岩表示,NVIDIA BlueField DPU和NVIDIA DOCA在云原生超级计算架构里面是一个关键组成部分,本次黑客松的竞赛题目是使用NVIDIA BlueField DPU和NVIDIA DOCA实现RDMA加速存储与AI解决方案。
参赛团队基于这个题目进行项目的设计和软件的编程,通过NVIDIA DOCA软件框架实现RDMA加速存储和加速AI应用创新设计,围绕NVIDIA BlueField DPU和InfiniBand网络架构实现相关工作负载的卸载、加速和隔离。
崔岩说,DPU中国黑客松是开发者学习、实践使用NVIDIA DOCA软件开发套件的难得机会,可以基于NVIDIA BlueField DPU进行数据中心应用程序的开发,参赛团队可以利用DOCA驱动、DOCA库、开发工具和相关文档构建、优化NVIDIA BlueField DPU,实现基础设施相关的加速应用开发,在此过程中展现他们的奇思妙想、创新精神和团队气质。
经过项目现场演示,以及国内评委和国际评委的审核和相应的评分,最终四支团队脱颖而出,分别获得DPU中国黑客松的相应奖项。获得一等奖的是SDIC团队,二等奖是知音牛码团队,并列三等奖的是网络需要配团队和极客天成团队。
其中,获得一等奖的SDIC团队项目名称是基于BlueField DPU数据中心RDMA虚拟化的研究。目前DPU支持Virtio-net网络虚拟化和Virtio-blk存储虚拟化功能,项目利用Virtio半虚拟化解决方案为不同的Hypervisor提供兼容的、通用的Virtio-RDMA通信框架和编程接口,能够在InfiniBand实现RDMA功能。
二等奖获得者知音牛码团队的名称是“分布式智能键值存储引擎”,称为KV存储或者键值存储数据库。项目通过NVIDIA BlueField DPU在内存中构建哈希表,实现键值对的加速存储。
“通过DPU中国黑客松比赛为业界更多地培养DPU和DOCA的开发人才,我们希望有更多开发者参与。”崔岩最后说。
好文章,需要你的鼓励
最近《Gartner十大战略技术趋势报告(2025)》正式出炉,人工智能众望所归成为焦点,在多个趋势中得到了充分体现。
CIO越来越多地利用云和分析引领数字化变革,尤其是在零售和服务公司,但本质上交叉点是与创收密切相关,在这方面IT优先级也不断提高。
谷歌云(Google Cloud)希望通过推出新的谷歌云人工智能代理生态系统计划,将人工智能代理的销售和客户采用率提升到新的高度,通过新的技术和市场资源帮助合作伙伴建立并共同创新人工智能代理。