从科学模拟、可视化、数据分析再到机器学习,各种现代计算的工作负载正在推动超级计算中心、云服务提供商和企业重新思考他们的计算架构。
单纯的处理器、网络或软件优化已经无法满足研究人员、工程师和数据科学家的最新需求,基于技术堆栈的数据中心成为新的计算单元。
NVIDIA以GPU加速计算为抓手,融合高性能计算与人工智能,打造云原生超级计算。
在SC21高性能计算大会上最新发布的TOP500榜单上,NVIDIA技术为355套超级计算机系统提供加速,占榜单的70%以上,而新增系统中90% 以上都采用了NVIDIA 的技术。对比6月份发布的TOP500榜单上342个系统(占榜单68%)使用NVIDIA技术,增长趋势明显。
NVIDIA在全球最节能系统Green500榜单上也继续保持领先优势,占据了榜单排名前25名系统中的23套,与6月份持平。平均来看,采用NVIDIA GPU的系统能耗效率比非GPU系统高3.5倍。
来自微软的GPU加速Azure超级计算机在榜单上排名第十。这是基于云的系统首次跻身前10名,新一代云原生系统就此崭露头角。
HPC与AI的融合
毋庸置疑,高性能计算和人工智能的融合已经成为大势所趋。近年来,研究高性能计算和机器学习的论文数量激增,从2018年的约600篇增长到2020年的近5000篇。
除了学术界,在产业界,各大企业正在竞相建造E级人工智能计算机,以支持这种融合高性能计算和人工智能的新模式。包括HPL-AI和MLPerf HPC在内的新基准也强调了高性能计算和AI工作负载的持续融合。
今年超算领域最有声望的戈登·贝尔奖(Gordon Bell prize)决赛的四组晋级团队,利用NVIDIA加速计算和人工智能平台开展研究工作, 包括两个10亿个原子模拟,两项对SARS-CoV-2病毒如何工作的新见解,以及一个加速药物发现的新AI模型。
为此,NVIDIA发挥全栈优势,通过GPU加速处理、智能网络、GPU优化应用程序和支持AI和高性能计算融合的库来解决整个堆栈的问题。
例如GPU的并行处理能力加上CUDA-X库和GPU加速应用程序,在多数情况下可以让用户把高性能计算任务的时间从几周减少到几个小时。应用范围最广的科学应用程序(我们称之为“黄金套件”)的性能在过去6年里提高了16倍,而且还在不断提升。
为帮助用户快速提升性能,NVIDIA通过NGC目录中的容器提供最新版本的人工智能和高性能计算软件。用户只需在数据中心或云端的超级计算机上拖拽并运行应用程序即可。
在GTC线上大会上,NVIDIA推出了一系列用于高性能计算的先进的新的库和软件开发工具套件,包括深度图库(DGL)、NVIDIA Modulus、ReOpt、cuQuantum、cuNumeric等。
NVIDIA在强化HPC SDK并支持基于Arm的全栈机器学习工具方面持续取得了快速进展。除HPC SDK之外,NVIDIA还宣布支持两个最常用的深度学习框架:PyTorch和TensorFlow。此外,RAPIDS 软件库套件和NVIDIA Triton推理服务器将于今年年底推出基于Arm的版本。
NVIDIA还宣布,将利用Omniverse构建一台名为Earth-2的超级计算机,通过创建一个数字孪生地球来预测气候变化。
据悉,Earth-2完全由NVIDIA独立出资打造,如果算上Earth-2,那么NVIDIA已经拥有多台超级计算机,包括全球排名第六的Selene,已经专门用于医疗研究的超级计算机Cambridge-1,其是全球医疗研究领域最强大的人工智能超级计算机,目前已被众多领先的医疗公司采用。
Earth-2将采用全新架构,新架构将使我们能够打造出有史以来最节能的超级计算机。此外,它还非常强大。它是为Omniverse而设计的超级计算机,因为如果你把地球想象成一个物理的存在,Earth-2其实就是另一个世界的引擎。
DPU能够做些什么?
GPU加速计算在HPC和AI中的重要性不言而喻,但是随着超级计算机在数据分析、人工智能、模拟和可视化方面承担越来越多的工作负载,CPU不得不在大型复杂的系统上支持更多的通信任务。而DPU(数据处理器)可以卸载多种操作,有效减轻这一压力。
作为一个完全集成的片上数据中心平台,NVIDIA BlueField DPU可以卸载和管理数据中心的基础设施任务,释放主机的处理器资源,从而实现更强的安全性和更高效的超级计算编排工作。
与NVIDIA Quantum InfiniBand平台相结合,该架构可提供最佳裸机性能,同时原生支持多节点租户隔离。
NVIDIA的Quantum InfiniBand平台提供可预测的裸机性能隔离。并且采用零信任安全防护,因而这些新系统也更加安全。
BlueField DPU将用户应用与基础设施任务隔离开来。最新的BlueField软件平台NVIDIA DOCA 1.2支持下一代分布式防火墙和更广泛的线速数据加密。而NVIDIA Morpheus则会假设入侵者已经进入数据中心,将利用基于深度学习的数据科学来实时检测入侵者的活动。
上周NVIDIA还发布了NVIDIA Quantum-2。这是一个400Gbps InfiniBand平台,由Quantum-2交换机、ConnectX-7网卡、BlueField-3 DPU以及用于新网络架构的软件组成。
NVIDIA Quantum-2提供了裸机高性能和安全多租户优势,可以让下一代超级计算机实现安全性、云原生以及更高的效率。
例如,Atos和NVIDIA宣布成立卓越人工智能实验室(Excellence AI Lab,简称EXAIL),Atos公司将利用NVIDIA基于Arm架构的Grace CPU、NVIDIA下一代GPU、Atos BXI E级互联技术和NVIDIA Quantum-2 InfiniBand网络平台,开发一台E级计算级别的BullSequana X超级计算机。
德克萨斯农工大学高性能计算中心、密西西比州立大学也将使用NVIDIA Quantum-2 InfiniBand平台。
结语
当前,高性能计算的重要性不断凸显,而与人工智能的融合更是让HPC焕发了新的生机,NVIDIA以软硬全栈技术持续推动超级计算机的发展,
好文章,需要你的鼓励
文章探讨了CIO在2025年应该重点投资的五个AI领域:可信工作流的代理AI、智能文档管理、营销客户数据需求、从数据驱动转向AI驱动、重新审视IT架构以支持AI目标。这些投资可以在短期内带来效益,同时成为长期财务回报的倍增器。CIO需要在这些领域制定务实的AI应用策略,简化平台,加强风险管理,以应对未来的挑战和机遇。
Instabase 公司完成 1 亿美元 D 轮融资,估值 12.4 亿美元。该公司提供非结构化数据处理平台,可从多种文件中提取信息并标准化。新资金将用于增强数据提取、分析和搜索功能,以满足企业 AI 需求。
人工智能在建筑设计领域正展现出惊人潜力。从生成令人赏心悦目的建筑效果图,到创造无限游戏世界,AI 正逐步改变设计流程。尽管人类仍是核心创作者,但 AI 辅助工具正迅速普及,未来可能会大幅提升设计效率和质量。这一趋势引发了对 AI 取代人类建筑师的担忧,也带来了硬件革命和地缘政治影响。
研究显示,高收入公司的CEO正将人工智能置于业务战略的核心地位。欧美企业声称已具备AI项目的基础条件。专家建议避免过度乐观,关注投资回报,构建稳健的数据基础,并优先考虑循序渐进的推广策略。研究还发现,最成功的公司往往是那些高层领导有意识地不直接参与AI战略制定的公司。