高性能计算和人工智能作为主要的数据处理引擎助力技术研究、科学发现和产品开发,推动超级计算进入广泛的商业应用。云原生超级计算平台为业界首次提供了两全其美的方案,既提供了裸机性能,也实现了数据中心的高效率,并且支持现代数据中心零信任模型实现多租户和安全隔离。
NVIDIA网络亚太区高级总监宋庆春告诉记者,为了解决现在数据中心面临的挑战,云原生超级计算技术应运而生。目前数据中心的典型架构是CPU处理应用和基础设施操作,GPU加速应用。不过CPU在承载存储和网络功能的同时也导致效率低下,影响应用性能。
基于此,NVIDIA提出云原生超级计算架构,CPU、DPU、加速器和网络协同工作,实现高性能、绿色、安全的数据中心,实现极致性能、优化设计、节能减排。
其中,BlueField DPU 和 NVIDIA DOCA是新型计算平台的关键。DPU可以卸载存储和网络、安全的功能,GPU和CPU的资源完全释放给业务,提升系统的性能;DOCA提供加速应用的接口,比如计算、存储、安全,充分发挥DPU的卸载和加速功能。
宋庆春说,云原生超级计算架构将原来CPU的基础设施工作负载卸载到BlueField DPU,然后让CPU、DPU、GPU以及其它加速器和网络一起协同工作,提供最优的性能,同时通过新的架构改进可以用更低的成本或者更少的硬件构建更高性能的系统,并降低能效,提升安全。
目前,BlueField-2 DPU已经在很多市场被广泛应用,BlueField-3 DPU也将推向市场,更好地满足云原生超级计算对功能卸载、加速计算方面的需求。比如通过DPU加速计算或者卸载通信,分子动力学的应用已经实现20%以上的性能提升,数学建模应用场景实现将近30%的性能提升,天气预告模型实现大约24%的性能提升。
网络在数据中心扮演了重要的角色,优化网络可以提高数据中心的安全性或者运行效率。云原生超级计算架构用异构网络的方式优化性能,让性能达到极致,同时优化整个数据中心的设计,能够以最少的硬件达到最优的性能,符合节能减排的大趋势。
在TOP500榜单的前100名中,NVIDIA的 InfiniBand网络占有63%的席位,可见构建越快的算力平台越需要更高性能的网络。今年NVIDIA最新一代GPU和InfiniBand网络的组合获得了Green500第一名。Green500前100名中75%的系统在用NVIDIA的 InfiniBand网络。
宋庆春表示,当NVIDIA加速计算技术发展越来越快,AI平台使用场景对高速网络的需求越来越高,InfiniBand网络互连技术除了提升算力性能,还可以提升存储性能。
云原生超级计算离不开交换机上的计算技术,NVIDIA SHARP技术突破了网络带宽极限,并助力实现公有云上的业务性能隔离。“云原生超级计算能够在云上发挥最好的性能,减少业务之间的相互干扰,助力业务尽快上云。”宋庆春说。
2022秋季DPU中国黑客松竞赛
为了更好地推动NVIDIA BlueField DPU和NVIDIA DOCA的发展,2022秋季DPU中国黑客松竞赛9月12日开始官方招募,总共有二十七支团队注册黑客松竞赛,十三支团队参加最终比赛,总共五十一位开发者,其中包括六位女性开发者。
NVIDIA网络技术专家崔岩表示,NVIDIA BlueField DPU和NVIDIA DOCA在云原生超级计算架构里面是一个关键组成部分,本次黑客松的竞赛题目是使用NVIDIA BlueField DPU和NVIDIA DOCA实现RDMA加速存储与AI解决方案。
参赛团队基于这个题目进行项目的设计和软件的编程,通过NVIDIA DOCA软件框架实现RDMA加速存储和加速AI应用创新设计,围绕NVIDIA BlueField DPU和InfiniBand网络架构实现相关工作负载的卸载、加速和隔离。
崔岩说,DPU中国黑客松是开发者学习、实践使用NVIDIA DOCA软件开发套件的难得机会,可以基于NVIDIA BlueField DPU进行数据中心应用程序的开发,参赛团队可以利用DOCA驱动、DOCA库、开发工具和相关文档构建、优化NVIDIA BlueField DPU,实现基础设施相关的加速应用开发,在此过程中展现他们的奇思妙想、创新精神和团队气质。
经过项目现场演示,以及国内评委和国际评委的审核和相应的评分,最终四支团队脱颖而出,分别获得DPU中国黑客松的相应奖项。获得一等奖的是SDIC团队,二等奖是知音牛码团队,并列三等奖的是网络需要配团队和极客天成团队。
其中,获得一等奖的SDIC团队项目名称是基于BlueField DPU数据中心RDMA虚拟化的研究。目前DPU支持Virtio-net网络虚拟化和Virtio-blk存储虚拟化功能,项目利用Virtio半虚拟化解决方案为不同的Hypervisor提供兼容的、通用的Virtio-RDMA通信框架和编程接口,能够在InfiniBand实现RDMA功能。
二等奖获得者知音牛码团队的名称是“分布式智能键值存储引擎”,称为KV存储或者键值存储数据库。项目通过NVIDIA BlueField DPU在内存中构建哈希表,实现键值对的加速存储。
“通过DPU中国黑客松比赛为业界更多地培养DPU和DOCA的开发人才,我们希望有更多开发者参与。”崔岩最后说。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。