对于算力的追求,我们既需要脚踏实地,也需要仰望星空
在德国汉堡举行的ISC 2023国际超算大会上,NVIDIA发布了一系列关于高效节能超级计算和量子计算的最新进展。
01 Arm超级计算机的新潮流
在高性能计算(HPC)领域,英特尔的芯片一直占据主导地位。而Arm是全球智能设备第一大主流芯片架构。不过Arm正在进入到HPC领域,为超级计算机市场带来新的改变。
我们也知道NVIDIA一直在推动Arm架构在数据中心市场的应用,包括推出基于Arm架构的CPU产品和增强自身产品对Arm架构的支持。
全球各地越来越多的超级计算机正在采用基于Arm架构的NVIDIA芯片,比如瑞士国家超算中心和美国洛斯阿拉莫斯国家实验室正在建造配备GPU的超级计算机。
在ISC 2023上,NVIDIA公布了基于NVIDIA Grace CPU超级芯片的超级计算机Isambard 3。
Isambard 3超级计算机位于英国布里斯托和巴斯科学园,将配备384颗基于Arm架构的NVIDIA Grace CPU超级芯片,用于推动医学和科学研究,其性能和能效预计将达到Isambard 2的6倍,使其成为欧洲最节能的系统之一。它的FP64峰值性能将达到约2.7petaflops,功耗低于270千瓦,跻身世界三大最环保的非加速超级计算机之列。
NVIDIA基于Arm架构的由NVIDIA Grace驱动的系统将延续Isambard 2的分子机制模拟工作,以更好地了解帕金森病,并为骨质疏松症和COVID-19寻找新的治疗方法。这些计算密集型应用受益于Grace超级芯片中提供的最高性能的核心、最高的内存带宽和最优的单核内存容量。
02 NVIDIA的量子计算布局
当前,经典的冯诺依曼架构正在受到挑战,而量子计算加速落地与发展。量子计算和GPU超级计算的统一化是未来在科学领域取得突破的关键之一。混合量子-经典系统正在使量子计算更接近现实,以解决单靠经典计算无法解决的复杂问题。
NVIDIA提供了一个加快各学科量子研究和开发突破的统一计算平台,包括Grace Hopper超级芯片以及NVIDIA Hopper架构GPU。
高速、低延迟的NVIDIA NVLink-C2C互连技术完美优化了使用该超级芯片构建的经典系统与量子处理器或QPU的连接。Grace Hopper每个节点共有600GB快速访问内存,让量子生态系统能够进一步扩大这些模拟的规模。
作为一座通往未来量子计算的“战略性桥梁”,Grace Hopper驱动着全球首个将量子计算与最先进的经典计算相结合的GPU加速量子计算系统——DGX Quantum。NVIDIA还为开发者提供了一个连接GPU和QPU的强大开源编程模型——NVIDIA CUDA Quantum。
03 不断扩展的量子生态
NVIDIA宣布计划与德国于利希研究中心(FZJ)的于利希超算中心(JSC)联合建立一座新的实验室,该实验室将与慕尼黑的ParTec AG一起在NVIDIA量子计算平台的基础上开发一台经典-量子超级计算机。
该实验室将由欧洲最大的跨学科研究中心之一——FZJ运营,并作为于利希量子计算用户基础设施(JUNIQ)的一部分,运行高性能、低延迟的量子-经典计算工作负载。JUNIQ目前正在使用搭载3744颗NVIDIA A100 Tensor Core GPU的JUWELS加速系统进行量子计算模拟。
NVIDIA量子计算平台通过开源CUDA Quantum编程模型实现了量子与经典计算的紧密集成,并通过NVIDIA cuQuantum软件开发套件实现了一流的模拟。
JSC计划采用分阶段的方式测试该系统,使用NVIDIA CUDA量子编程模型对量子处理器进行编程并将其集成到于利希超大规模模块化超级计算架构中。
喷气式发动机是地球上最复杂的设备之一,其设计成本非常高昂,而且计算难度极大。经典和量子计算方法可以直接用于解决喷气发动机的设计难题。
NVIDIA、罗尔斯·罗伊斯和量子软件公司Classiq今日宣布一项量子计算突破,旨在不断提高喷气发动机效率。
通过采用NVIDIA的量子计算平台,两家公司设计并模拟了世界上最大的计算流体力学(CFD)量子计算电路。该电路测量深度为1000万层,有39个量子位。罗尔斯·罗伊斯正在使用GPU为量子未来做准备,尽管当今的量子计算机仅能支持只有几层的电路深度。
罗尔斯·罗伊斯计划使用新的电路发挥量子在CFD中的优势,同时使用经典和量子计算方法来模拟喷气发动机设计的性能。
罗尔斯·罗伊斯及其合作伙伴——以色列公司Classiq先是使用Classiq的合成引擎设计了该电路,然后使用NVIDIA A100 Tensor Core GPU对其进行模拟,而NVIDIA cuQuantum —— 一个包含经过优化、用于加快量子计算流程的库和工具软件开发工具套件保证了该流程的速度和规模。
另外, 集成CUDA Quantum的最新QPU制造商ORCA Computing正在将其光子量子计算机与用于机器学习的GPU相结合。两个热门量子机器学习框架TensorFlow Quantum和TorchQuantum现在也集成了cuQuantum。如今,全球大多数量子计算软件均支持NVIDIA量子平台的GPU加速功能。
04 结语
对于如今的HPC而言,变革势在必行,因为算力的需求永无止境。不管是Arm架构还是量子计算,NVIDIA在引领计算的潮流。
好文章,需要你的鼓励
在迪拜Gitex 2025大会上,阿联酋成为全球AI领导者的雄心备受关注。微软正帮助该地区组织从AI实验阶段转向实际应用,通过三重方法提供AI助手、协同AI代理和AI战略顾问。微软已在阿联酋大举投资数据中心,去年培训了10万名政府员工,计划到2027年培训100万学习者。阿联酋任命了全球首位AI部长,各部门都配备了首席AI官。微软与政府机构和企业合作,在公民服务和金融流程等领域实现AI的实际应用,构建全面的AI生态系统。
查尔斯大学和意大利布鲁诺·凯斯勒基金会的研究团队首次系统性解决了同声传译AI系统延迟评估的准确性问题。他们发现现有评估方法存在严重偏差,常给出相互矛盾的结果,并提出了YAAL新指标和SOFTSEGMENTER对齐工具。YAAL准确性达96%,比传统方法提升20多个百分点。研究还开发了专门的长音频评估工具LongYAAL,为AI翻译技术发展提供了可靠的测量标准。
苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型,采用少步离散流匹配技术,仅需8轮快速优化即可生成完整长文本,效果媲美需要上千步骤的扩散模型。该模型通过三步训练法:处理不同优化预算、使用教师模型指导、调整迭代机制来实现突破。测试显示,参数量仅1.7亿至17亿的FS-DFM变体在困惑度和熵值指标上均优于70-80亿参数的大型扩散模型。
印度理工学院团队构建了史上最大规模印度文化AI测试基准DRISHTIKON,包含64288道多语言多模态题目,覆盖15种语言和36个地区。研究评估了13个主流AI模型的文化理解能力,发现即使最先进的AI也存在显著文化盲区,特别是在低资源语言和复杂推理任务上表现不佳,为构建文化感知AI提供了重要指导。