高性能计算和人工智能作为主要的数据处理引擎助力技术研究、科学发现和产品开发,推动超级计算进入广泛的商业应用。云原生超级计算平台为业界首次提供了两全其美的方案,既提供了裸机性能,也实现了数据中心的高效率,并且支持现代数据中心零信任模型实现多租户和安全隔离。

NVIDIA网络亚太区高级总监宋庆春告诉记者,为了解决现在数据中心面临的挑战,云原生超级计算技术应运而生。目前数据中心的典型架构是CPU处理应用和基础设施操作,GPU加速应用。不过CPU在承载存储和网络功能的同时也导致效率低下,影响应用性能。
基于此,NVIDIA提出云原生超级计算架构,CPU、DPU、加速器和网络协同工作,实现高性能、绿色、安全的数据中心,实现极致性能、优化设计、节能减排。
其中,BlueField DPU 和 NVIDIA DOCA是新型计算平台的关键。DPU可以卸载存储和网络、安全的功能,GPU和CPU的资源完全释放给业务,提升系统的性能;DOCA提供加速应用的接口,比如计算、存储、安全,充分发挥DPU的卸载和加速功能。
宋庆春说,云原生超级计算架构将原来CPU的基础设施工作负载卸载到BlueField DPU,然后让CPU、DPU、GPU以及其它加速器和网络一起协同工作,提供最优的性能,同时通过新的架构改进可以用更低的成本或者更少的硬件构建更高性能的系统,并降低能效,提升安全。
目前,BlueField-2 DPU已经在很多市场被广泛应用,BlueField-3 DPU也将推向市场,更好地满足云原生超级计算对功能卸载、加速计算方面的需求。比如通过DPU加速计算或者卸载通信,分子动力学的应用已经实现20%以上的性能提升,数学建模应用场景实现将近30%的性能提升,天气预告模型实现大约24%的性能提升。
网络在数据中心扮演了重要的角色,优化网络可以提高数据中心的安全性或者运行效率。云原生超级计算架构用异构网络的方式优化性能,让性能达到极致,同时优化整个数据中心的设计,能够以最少的硬件达到最优的性能,符合节能减排的大趋势。
在TOP500榜单的前100名中,NVIDIA的 InfiniBand网络占有63%的席位,可见构建越快的算力平台越需要更高性能的网络。今年NVIDIA最新一代GPU和InfiniBand网络的组合获得了Green500第一名。Green500前100名中75%的系统在用NVIDIA的 InfiniBand网络。
宋庆春表示,当NVIDIA加速计算技术发展越来越快,AI平台使用场景对高速网络的需求越来越高,InfiniBand网络互连技术除了提升算力性能,还可以提升存储性能。
云原生超级计算离不开交换机上的计算技术,NVIDIA SHARP技术突破了网络带宽极限,并助力实现公有云上的业务性能隔离。“云原生超级计算能够在云上发挥最好的性能,减少业务之间的相互干扰,助力业务尽快上云。”宋庆春说。
2022秋季DPU中国黑客松竞赛
为了更好地推动NVIDIA BlueField DPU和NVIDIA DOCA的发展,2022秋季DPU中国黑客松竞赛9月12日开始官方招募,总共有二十七支团队注册黑客松竞赛,十三支团队参加最终比赛,总共五十一位开发者,其中包括六位女性开发者。

NVIDIA网络技术专家崔岩表示,NVIDIA BlueField DPU和NVIDIA DOCA在云原生超级计算架构里面是一个关键组成部分,本次黑客松的竞赛题目是使用NVIDIA BlueField DPU和NVIDIA DOCA实现RDMA加速存储与AI解决方案。
参赛团队基于这个题目进行项目的设计和软件的编程,通过NVIDIA DOCA软件框架实现RDMA加速存储和加速AI应用创新设计,围绕NVIDIA BlueField DPU和InfiniBand网络架构实现相关工作负载的卸载、加速和隔离。
崔岩说,DPU中国黑客松是开发者学习、实践使用NVIDIA DOCA软件开发套件的难得机会,可以基于NVIDIA BlueField DPU进行数据中心应用程序的开发,参赛团队可以利用DOCA驱动、DOCA库、开发工具和相关文档构建、优化NVIDIA BlueField DPU,实现基础设施相关的加速应用开发,在此过程中展现他们的奇思妙想、创新精神和团队气质。
经过项目现场演示,以及国内评委和国际评委的审核和相应的评分,最终四支团队脱颖而出,分别获得DPU中国黑客松的相应奖项。获得一等奖的是SDIC团队,二等奖是知音牛码团队,并列三等奖的是网络需要配团队和极客天成团队。
其中,获得一等奖的SDIC团队项目名称是基于BlueField DPU数据中心RDMA虚拟化的研究。目前DPU支持Virtio-net网络虚拟化和Virtio-blk存储虚拟化功能,项目利用Virtio半虚拟化解决方案为不同的Hypervisor提供兼容的、通用的Virtio-RDMA通信框架和编程接口,能够在InfiniBand实现RDMA功能。
二等奖获得者知音牛码团队的名称是“分布式智能键值存储引擎”,称为KV存储或者键值存储数据库。项目通过NVIDIA BlueField DPU在内存中构建哈希表,实现键值对的加速存储。
“通过DPU中国黑客松比赛为业界更多地培养DPU和DOCA的开发人才,我们希望有更多开发者参与。”崔岩最后说。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。