从科学模拟、可视化、数据分析再到机器学习,各种现代计算的工作负载正在推动超级计算中心、云服务提供商和企业重新思考他们的计算架构。
单纯的处理器、网络或软件优化已经无法满足研究人员、工程师和数据科学家的最新需求,基于技术堆栈的数据中心成为新的计算单元。

NVIDIA以GPU加速计算为抓手,融合高性能计算与人工智能,打造云原生超级计算。
在SC21高性能计算大会上最新发布的TOP500榜单上,NVIDIA技术为355套超级计算机系统提供加速,占榜单的70%以上,而新增系统中90% 以上都采用了NVIDIA 的技术。对比6月份发布的TOP500榜单上342个系统(占榜单68%)使用NVIDIA技术,增长趋势明显。
NVIDIA在全球最节能系统Green500榜单上也继续保持领先优势,占据了榜单排名前25名系统中的23套,与6月份持平。平均来看,采用NVIDIA GPU的系统能耗效率比非GPU系统高3.5倍。
来自微软的GPU加速Azure超级计算机在榜单上排名第十。这是基于云的系统首次跻身前10名,新一代云原生系统就此崭露头角。
HPC与AI的融合
毋庸置疑,高性能计算和人工智能的融合已经成为大势所趋。近年来,研究高性能计算和机器学习的论文数量激增,从2018年的约600篇增长到2020年的近5000篇。
除了学术界,在产业界,各大企业正在竞相建造E级人工智能计算机,以支持这种融合高性能计算和人工智能的新模式。包括HPL-AI和MLPerf HPC在内的新基准也强调了高性能计算和AI工作负载的持续融合。
今年超算领域最有声望的戈登·贝尔奖(Gordon Bell prize)决赛的四组晋级团队,利用NVIDIA加速计算和人工智能平台开展研究工作, 包括两个10亿个原子模拟,两项对SARS-CoV-2病毒如何工作的新见解,以及一个加速药物发现的新AI模型。
为此,NVIDIA发挥全栈优势,通过GPU加速处理、智能网络、GPU优化应用程序和支持AI和高性能计算融合的库来解决整个堆栈的问题。
例如GPU的并行处理能力加上CUDA-X库和GPU加速应用程序,在多数情况下可以让用户把高性能计算任务的时间从几周减少到几个小时。应用范围最广的科学应用程序(我们称之为“黄金套件”)的性能在过去6年里提高了16倍,而且还在不断提升。
为帮助用户快速提升性能,NVIDIA通过NGC目录中的容器提供最新版本的人工智能和高性能计算软件。用户只需在数据中心或云端的超级计算机上拖拽并运行应用程序即可。
在GTC线上大会上,NVIDIA推出了一系列用于高性能计算的先进的新的库和软件开发工具套件,包括深度图库(DGL)、NVIDIA Modulus、ReOpt、cuQuantum、cuNumeric等。
NVIDIA在强化HPC SDK并支持基于Arm的全栈机器学习工具方面持续取得了快速进展。除HPC SDK之外,NVIDIA还宣布支持两个最常用的深度学习框架:PyTorch和TensorFlow。此外,RAPIDS 软件库套件和NVIDIA Triton推理服务器将于今年年底推出基于Arm的版本。
NVIDIA还宣布,将利用Omniverse构建一台名为Earth-2的超级计算机,通过创建一个数字孪生地球来预测气候变化。
据悉,Earth-2完全由NVIDIA独立出资打造,如果算上Earth-2,那么NVIDIA已经拥有多台超级计算机,包括全球排名第六的Selene,已经专门用于医疗研究的超级计算机Cambridge-1,其是全球医疗研究领域最强大的人工智能超级计算机,目前已被众多领先的医疗公司采用。
Earth-2将采用全新架构,新架构将使我们能够打造出有史以来最节能的超级计算机。此外,它还非常强大。它是为Omniverse而设计的超级计算机,因为如果你把地球想象成一个物理的存在,Earth-2其实就是另一个世界的引擎。
DPU能够做些什么?
GPU加速计算在HPC和AI中的重要性不言而喻,但是随着超级计算机在数据分析、人工智能、模拟和可视化方面承担越来越多的工作负载,CPU不得不在大型复杂的系统上支持更多的通信任务。而DPU(数据处理器)可以卸载多种操作,有效减轻这一压力。

作为一个完全集成的片上数据中心平台,NVIDIA BlueField DPU可以卸载和管理数据中心的基础设施任务,释放主机的处理器资源,从而实现更强的安全性和更高效的超级计算编排工作。
与NVIDIA Quantum InfiniBand平台相结合,该架构可提供最佳裸机性能,同时原生支持多节点租户隔离。
NVIDIA的Quantum InfiniBand平台提供可预测的裸机性能隔离。并且采用零信任安全防护,因而这些新系统也更加安全。
BlueField DPU将用户应用与基础设施任务隔离开来。最新的BlueField软件平台NVIDIA DOCA 1.2支持下一代分布式防火墙和更广泛的线速数据加密。而NVIDIA Morpheus则会假设入侵者已经进入数据中心,将利用基于深度学习的数据科学来实时检测入侵者的活动。
上周NVIDIA还发布了NVIDIA Quantum-2。这是一个400Gbps InfiniBand平台,由Quantum-2交换机、ConnectX-7网卡、BlueField-3 DPU以及用于新网络架构的软件组成。
NVIDIA Quantum-2提供了裸机高性能和安全多租户优势,可以让下一代超级计算机实现安全性、云原生以及更高的效率。
例如,Atos和NVIDIA宣布成立卓越人工智能实验室(Excellence AI Lab,简称EXAIL),Atos公司将利用NVIDIA基于Arm架构的Grace CPU、NVIDIA下一代GPU、Atos BXI E级互联技术和NVIDIA Quantum-2 InfiniBand网络平台,开发一台E级计算级别的BullSequana X超级计算机。
德克萨斯农工大学高性能计算中心、密西西比州立大学也将使用NVIDIA Quantum-2 InfiniBand平台。
结语
当前,高性能计算的重要性不断凸显,而与人工智能的融合更是让HPC焕发了新的生机,NVIDIA以软硬全栈技术持续推动超级计算机的发展,
好文章,需要你的鼓励
随着员工自发使用生成式AI工具,CIO面临影子AI的挑战。报告显示43%的员工在个人设备上使用AI应用处理工作,25%在工作中使用未经批准的AI工具。专家建议通过六项策略管理影子AI:建立明确规则框架、持续监控和清单跟踪、加强数据保护和访问控制、明确风险承受度、营造透明信任文化、实施持续的角色化AI培训。目标是支持负责任的创新而非完全禁止。
NVIDIA研究团队开发的OmniVinci是一个突破性的多模态AI模型,能够同时理解视觉、听觉和文本信息。该模型仅使用0.2万亿训练样本就超越了使用1.2万亿样本的现有模型,在多模态理解测试中领先19.05分。OmniVinci采用三项核心技术实现感官信息协同,并在机器人导航、医疗诊断、体育分析等多个实际应用场景中展现出专业级能力,代表着AI向真正智能化发展的重要进步。
英国正式推出DaRe2THINK数字平台,旨在简化NHS全科医生参与临床试验的流程。该平台由伯明翰大学和MHRA临床实践研究数据链开发,能够安全传输GP诊所与NHS试验研究人员之间的健康数据,减少医生的管理负担。平台利用NHS现有健康信息,安全筛查来自450多家诊所的1300万患者记录,并使用移动消息系统保持试验对象参与度,为传统上无法参与的人群开辟了研究机会。
Salesforce研究团队发布BLIP3o-NEXT,这是一个创新的图像生成模型,采用自回归+扩散的双重架构设计。该模型首次成功将强化学习应用于图像生成,在多物体组合和文字渲染方面表现优异。尽管只有30亿参数,但在GenEval测试中获得0.91高分,超越多个大型竞争对手。研究团队承诺完全开源所有技术细节。