如今,算力的需求不断激增,特别是高性能计算以及超大规模计算集群在算力供给方面扮演了重要角色。NVIDIA持续创新产品,贡献了CPU、GPU、DPU等多样化的芯片,以及软件产品,从而提供整体化的解决方案。
在近日举行的ISC 2022上,最新的全球超级计算机排行榜TOP500上71%的超级计算机采用NVIDIA技术。此外,榜单上80%的新系统还使用NVIDIA GPU或网络,并且NVIDIA的网络平台是TOP500系统使用最多的互连平台。
NVIDIA Grace为计算密集型工作负载提速
众所周知,NVIDIA积极推动3U一体战略,这包括NVIDIA Hopper GPU、NVIDIA Grace CPU和NVIDIA BlueField DPU,通过NVIDIA Quantum和Spectrum一起构成了基础设施平台。
其中,Grace CPU超级芯片搭载两块通过NVLink-C2C互连技术连接的CPU芯片,内置多达144个高性能Arm V9 Neoverse核心,并且带有可伸缩矢量扩展和每秒1TB的内存子系统。这一开创性的设计可实现最高的性能,并且内存带宽和能效两倍于当今领先的服务器处理器,可满足要求最为严苛的HPC、数据分析、数字孪生、云游戏和超大规模计算应用。
Grace Hopper超级芯片在一个集成模块中,通过NVLink-C2C将NVIDIA Hopper GPU与Grace CPU互联,可满足HPC和超大规模AI应用的需求。借助NVLink-C2C互连技术,Grace CPU向Hopper GPU的数据传输速度比传统CPU提升15倍,同时还能连接NVIDIA ConnectX-7智能网卡以及NVIDIA BlueField-3 DPU以保障HPC及AI工作负载安全。
超级计算已进入到超大规模AI时代。近日,NVIDIA宣布众多服务器厂商部署基于NVIDIA Grace CPU超级芯片和NVIDIA Grace Hopper超级芯片的服务器,为超大规模时代的AI和HPC工作负载提速。
目前洛斯阿拉莫斯国家实验室(LANL)已经宣布,其新一代系统Venado将成为美国首个采用NVIDIA Grace CPU技术的系统。Venado是使用HPE Cray EX超级计算机构建而成的异构系统,同时将配备Grace CPU超级芯片节点和Grace Hopper超级芯片节点,满足各类新兴应用需求。该系统建成后的AI性能预计将超过10 exaflops。
瑞士国家计算中心的新系统Alps同样由慧与基于HPE Cray EX超级计算机而构建。该系统将使用Grace CPU超级芯片,以支持众多领域的开创性研究。Alps将作为一个通用系统,向瑞士及其他国家的研究者开放。
NVIDIA DPU应用的创新实践
在算力需求增长的同时,网络技术也在推高加速计算的水平。亚洲、欧洲和美国的超级计算中心正利用 NVIDIA Quantum InfiniBand网络上的NVIDIA BlueField DPU将通信和计算作业卸载。
Poole正与NVIDIA进行一项为期多年的广泛合作,这项合作旨在将计算多物理应用的性能提高30倍。其中包括使用BlueField及其NVIDIA DOCA软件框架在计算存储、模式匹配等方面实现的创新技术。这些努力还将有助于进一步定义OpenSNAPI ,这是一个任何人都可用来控制DPU的应用接口。
Poole主持Unified Communication Framework的OpenSNAPI项目,这是一个旨在实现HPC应用异构计算的联盟, 成员包括Arm、IBM 、NVIDIA、美国国家实验室和美国的一些大学。
德克萨斯高级计算中心(TACC)近期也开始在Dell PowerEdge服务器中采用BlueField-2。它将在InfiniBand 网络上使用DPU ,使其Lonestar6系统成为云原生超级计算的开发平台。
俄亥俄州立大学的研究人员借助DPU将一个HPC热门编程模型的运行速度提高21%。他们通过卸载消息传递接口(MPI)的关键部分,加速了P3DFFT ,这是一个用于众多大规模HPC仿真的数学库。
欧洲的多个研究团队正利用BlueField DPU加速MPI和其他HPC工作负载。例如,英格兰北部的达勒姆大学正在开发一款软件,用于在16个节点的Dell PowerEdge集群上使用BlueField DPU以实现MPI作业的负载均衡。
剑桥大学、伦敦和慕尼黑的研究人员也在使用DPU。伦敦大学学院正在探索如何在BlueField-2 DPU上为主机系统调度作业。
与此同时,慕尼黑工业大学计算机体系架构和并行系统组的研究人员正在寻找方法,使用DPU来卸载MPI和操作系统任务,这是EuroHPC项目的一部分。
在美国,佐治亚理工学院的研究人员正在与桑迪亚国家实验室合作,利用BlueField-2 DPU加速分子动力学研究。
本月早些时候,日本研究人员宣布将推出一款采用新版NVIDIA H100 Tensor Core GPU的系统,该系统将搭载速度更快、更智能的NVIDIA Quantum-2 InfiniBand网络平台。
NEC将使用H100的为筑波大学计算科学中心构建算力大约为6PFLOPS超级计算机。研究人员将使用该系统实现气候学、天体物理学、大数据、AI和更多方面的研究。
量子计算开启高性能计算的未来之旅
人类对于算力的需求是无止境的,量子计算成为现有计算架构的破局者。数十家量子组织已经在使用NVIDIA cuQuantum软件开发套件,在GPU上加速其量子电路模拟。
最近,AWS宣布在其Braket服务中提供cuQuantum。它还在Braket上展示了cuQuantum如何在量子机器学习工作负载上实现高达900倍的加速。
cuQuantum现已能够在主要的量子软件框架上实现加速计算,包括Google的qsim、IBM的Qiskit Aer、Xanadu的PennyLane和Classiq的Quantum Algorithm Design平台。这意味着这些框架的用户可以访问GPU加速,而无需再进行任何编码。
随着量子系统的发展,下一个重大飞跃是朝混合系统迈进:量子计算机和经典计算机协同工作。研究人员都希望这些系统级量子处理器(即QPU)成为功能强大的新型加速器。
实现QPU需要在GPU和QPU之间建立快速、低延迟的连接。而GPU可以缩短这些步骤的执行时间,并大幅降低经典计算机和量子计算机之间的通信延迟。
同时,为了对QPU进行编程,开发者需要统一的编程模型和编译器工具链。例如科学家需要将其HPC应用的一部分先移植到模拟版QPU,然后再移植到真正的QPU,这个过程就需要一个编译器。
将GPU加速的模拟工具、编程模型和编译器工具链全部结合在一起后,HPC研究人员就可以开始构建未来的混合量子数据中心。NVIDIA正全力参与这项工作,构建未来的混合量子系统。
数字孪生推动科学研究发展
如今物理世界与数字世界日趋融合,数字孪生技术得到广泛应用。英国原子能管理局和曼彻斯特大学(University of Manchester)的研究者在NVIDIA Omniverse中构建了虚拟核聚变发电站。
借助NVIDIA Omniverse,远程研究者可以使用不同的三维应用开展实时合作,并通过创建物理学AI模拟的框架——NVIDIA Modules来改进工作。
构建一个能够准确反映所有发电厂的组件、等离子体以及控制和维护系统的数字孪生是一项巨大的挑战,而人工智能(AI)、百万兆级GPU计算和物理精确的模拟软件可以大幅加快这项工作。
当在Omniverse中进行实验时,团队使用该平台的核心功能导入全保真3D数据,实现了逼真的发电厂设计。他们还可以通过RTX渲染器实现实时可视化,以便轻松比较不同的组件设计方案。
模拟核聚变等离子体也是一个难题。这些团队使用Omniverse Kit开发了基于Python的Omniverse扩展应用,连接并采集来自工业模拟软件Monte Carlo Neutronics Code Geant4的数据,以此模拟发电厂反应堆中的中子迁移(将能量带出反应堆的过程)。
为了查看JOREK等离子体模拟代码,他们还构建了Omniverse扩展应用。该代码能够模拟可见光的发射,使研究者能够深入了解等离子体的状态。科学家们将开始探索NVIDIA Modulus AI物理学框架,结合他们现有的模拟数据开发出可以对核聚变等离子体模拟进行加速的AI代理模型。
除了用于设计、操作和控制发电厂之外,Omniverse还可以用于协助训练未来由AI驱动或AI增强的机器人控制和维护系统。
通过Omniverse Replicator这套用于构建自定义合成数据生成工具和数据集的软件开发套件,研究人员可以生成大量物理精确的发电厂和等离子体反应的合成数据来训练机器人系统。在模拟环境中学习后,机器人可以在真实世界中更加准确地处理任务、改善预测性维护并缩短停机时间。
在未来,传感器可以向Omniverse数字孪生实时传输数据,不断保持虚拟的数字孪生与发电厂的真实状态同步。通过在虚拟的数字孪生中进行测试并对真实发电厂做出调整,研究人员将能够探索各种假设情况。
AI技术合成医学图像
合成图像此前已经广泛应用于消费者和商业应用的计算机视觉领域,而实际上这些领域本身已有包含数百万张真实图像的开放数据集可供使用。
相比之下,医学领域可供使用的真实影像反而稀缺。出于保护患者隐私的需要,医学影像通常仅供与大型医院相关的研究人员使用。即便如此,这些影像往往也只能反映医院所服务的人群,而非范围更广的人群。
于是借助AI技术合成医学图像成为刚需。伦敦国王学院的研究人员使用NVIDIA Cambridge-1超级计算机和MONAI打造全球最大的的开源合成大脑图像集,加速了AI在医疗健康领域的应用。
NVIDIA Cambridge-1是致力于在医疗健康领域取得突破性AI研究的超级计算机,其配备640个NVIDIA A100 Tensor Core GPU,每个GPU均具有足够的显存,可以处理团队海量图像中一或两张包含1600万个3D像素的图像。
而MONAI是用于医学成像的AI框架,包括特定领域专用的数据加载程序、指标、GPU加速转换和经过优化的工作流引擎。
它们共同创建了用于合成数据的AI工厂,让研究人员能够运行数百个实验、选择最优的AI模型并运行推理以生成图像。
伦敦国王学院的研究人员兼伦敦AI中心的CTO Jorge Cardoso采用AI方法,根据需要制作图像。女性大脑、男性大脑、老年人的大脑、年轻人的大脑等等,只需插入所需内容,系统就会进行创建。
虽然这些图像是模拟生成的,但非常实用,因为它们基于经过良好测试的算法,所以外观和运作方式与真实大脑高度相似。
合成图像将帮助研究人员了解疾病如何随时间推移而发展。与此同时,Cardoso的团队仍在探索如何将这项工作应用于大脑以外的身体部位,以及何种合成图像(MRI、CAT、PET)更实用。
结语
展望未来,算力需求持续增加,强大的算力基础设施成为刚需。不管是NVIDIA Grace CPU超级芯片和NVIDIA Grace Hopper超级芯片,还是NVIDIA DPU,以及cuQuantum,NVIDIA为行业采用AI进行创新提供了坚实的底座。
好文章,需要你的鼓励
AMD Radeon(TM) RX 9000 系列依托AI 加速为玩家带来极致游戏体验。
Inception Labs 于周四发布了 Mercury Coder,这是一种新的 AI 语言模型,利用扩散技术比传统模型更快地生成文本。与逐字生成文本的传统模型(如 ChatGPT)不同,基于扩散的模型(如 Mercury)能够同时生成完整的响应,并将其从最初的遮蔽状态逐步精炼为连贯的文本。
微软终于将其 AI 助手 Copilot 作为独立应用程序推出 macOS 版本。这款免费应用现已在 Mac App Store 上线,支持多种功能如文本翻译、问题解答、文档生成等。Copilot 采用 OpenAI 的 GPT-4 和 DALL-E 3 等模型,标志着微软在 AI 领域的重要布局。该应用要求 M1 或更新的 Mac 设备,以及 macOS 14 或更高版本。