800万,到8亿!AI推理的工作负载呈现出令人咋舌的指数级跃迁。
AI下半场的变革方向,正如在GTC 巴黎上,NVIDIA CEO黄仁勋所言——AI的下一波浪潮已然开始,它将需要大量的推理计算,工作负载将呈爆炸式增长,基本上会以指数级速度攀升。
AI的浪潮已然汹涌而至,从算力芯片到AI工厂,从Token的生产到其在机器人等领域的应用。黄仁勋在巴黎GTC上,描绘出一副由AI工厂驱动新工业革命的完整“蓝图”。
01 智能即生产力 数据中心化身“思想熔炉”
无论是微软和OpenAI等科技巨头正在规划的“星际之门”等巨型AI计算中心,还是各行各业的企业,都在竭力利用AI提升效率。大家都在寻找新的生产力引擎,而未来的AI数据中心正是承载这一引擎的关键。
与传统仅仅用于存储信息的数据中心不同,未来的AI数据中心,将成为直接创造“智能tokens”的“工厂”,这些tokens是所有生成式AI应用的基础构件,更是新时代的“智能”产物。正如黄仁勋指出的那样,今天大家谈论的AI数据中心,已与传统意义上的数据中心判若云泥。
AI数据中心的核心功能是生产“intelligent tokens”,这些tokens是构成一切生成式AI应用的基础构件。它们将推动从科学研究的突破、工业生产的革新,到日常生活的便利,甚至人形机器人的互动。可以说,这些设施更像是直接创造智能价值的工厂。
AI工厂的落成同样能为更广泛的群体创造更多价值,从而提升收入。
这种“智能即生产力”的理念,正是NVIDIA所描绘的“新工业革命”的核心内涵。正如电力最初被视为一项技术,随后发展成为庞大的产业和基础设施,AI也正经历着类似的演变。它不仅将变革各行各业,更将成为一个全新的产业,一种全新的国家基础设施,名为“智能基础设施”。
微软和OpenAI正在探讨建设的“星际之门(Stargate)”项目便是生动例子。其不像传统的数据中心,更像一座耗电量高达1吉瓦的巨型工厂,预计将容纳约50万个GPU芯片,源源不断地生产海量的智能。
而支撑该项目的基石之一,便是NVIDIA历经数十年构建的深厚技术壁垒——CUDA-X加速计算库。正是该加速计算库将不同领域的科学和工业难题,巧妙地转化为了GPU能够高效处理的数学问题。
黄仁勋指出,加速计算的独特之处在于其并非简单地为新处理器编译软件,而是需要从根本上重塑计算方式和算法本身。正是基于这一理念和实践,NVIDIA构建了一个庞大的软件体系,覆盖了从底层到应用的各个层面:
这一庞大的软件体系,覆盖了从底层到应用的各多个层面:
在基础层面,cuDNN被称为“NVIDIA有史以来最重要的库”,其加速深度神经网络的底层计算,确保复杂的模型训练还是高效的推理过程,都能以极快的速度完成。
在工业与科学计算领域,半导体制造的核心环节中,cuLitho库能高效运行于工厂中,赋能光刻技术。这项技术通过计算机模拟和仿真光学与化学过程,极大地提升了芯片制造的精度和效率。与此同时,面对拥有数百万变量和约束的复杂优化难题,cuOpt库则能提供强大的解决方案,为物流、路径规划、资源调度等领域带来显著的运营效率提升。
在数据科学领域,cuDF和cuML库也改变了传统数据分析和机器学习的范式。它们能为 Apache Spark和 Scikit-learn 等经典数据科学工具带来显著的性能飞跃,且无需用户修改代码。这使得数据分析更快捷、高效,机器学习模型的开发和部署也得到了极大的加速。
在前沿创新领域Ariel和Sionna 框架,已经开始为6G无线通信研究提供强大的 AI支持;MONAI极大地加速了医疗诊断、图像分析和药物研发的进程,逐渐开始成为医学成像的行业标准框架;Parabricks 在基因组学分析领域也取得了突破性成功,为生命科学的研究和发展提供了强大的计算动力,助力科学家们更快地解开生命的奥秘。
在这些具备深刻技术变革潜力创新软件背后的“引擎”,正是 搭载NVIDIA Blackwell架构的计算基础设施。
黄仁勋搭载NVIDIA Blackwell架构的GB200形容为一台“会思考的机器(a thinking machine)”。其被设计用来进行推理(reasons)、规划(plans),并花费大量时间与“自己对话”,就像人类思考时在脑海中生成文字和图像一样。
之所以需要如此强大的性能,缘于AI已经从简单的感知、生成,进化到了“智能体(Agent)”阶段。
一个现代的AI智能体,其工作模式是:“感知、推理、规划”的基本循环。它需要将复杂问题逐步分解,运用“思维链(chain of thoughts)”或“思维树(tree of thoughts)”等方法进行推理,并对自己的答案进行反思和迭代。
这其中的“思考”过程,会生成比以往简单问答式聊天AI多出成千上万倍的tokens。而这正是Blackwell诞生的原因,它将为这种指数级增长的推理负载提供强大的算力支持。黄仁勋指出,使用推理的用户数量在短短几年内从800万增长到8亿,足足增长了100倍。而生成式AI的prompt,也从几百个tokens增长到几千个tokens,着对AI算力的需求比以往任何时候都更加迫切。
这台被黄仁勋幽默地比喻为“思考机器”的装置,本身就是一项工程奇迹。曾经的G-Force显卡,如今已演变为一个重达2.5吨、价值约300万美元、功率120千瓦的庞然大物,它被设计成“一个巨大的虚拟GPU”。
其核心的Grace Blackwell计算节点,实现了显著的进步:仅用一个托盘就取代了上一代Hopper的整个系统(包括CPU托盘),不仅性能更强,并且全面采用了液冷散热技术。
为了将成百上千个这样的节点连接成一个真正的“巨型GPU”,NVIDIA 创新性地开发了 NVLink Spine。这项技术使用了 5000 根 100% 铜质同轴电缆,能够将 72 个 Blackwell GPU(包含 144 个 GPU 芯片)直接连接在一起,实现了每秒 130 太字节(TB)的无阻塞全互联带宽。黄仁勋自豪地指出,这个数字甚至超过了全球互联网的峰值总流量,他称之为“将互联网缩小到 60 磅”。
当然,NVIDIA也深知,并非所有客户都需要部署这种巨型系统。为此,其推出了覆盖从桌面到数据中心、从ARM架构到x86架构的全系列Blackwell产品组合。
针对 ARM 架构,Blackwell 系列推出了系列产品。DGX Spark和DGX Station是数据中心级性能的桌面系统,专为 AI 开发者设计。GB200 和 GB300 NVL72等强大的可扩展解决方案,适用于超大规模的 AI 部署。
而基于传统的 x86 架构,NVIDIA 提供了RTX Pro 笔记本电脑和工作站,为开发者提供先进的 AI 工具;RTX Pro 服务器能够处理广泛的企业工作负载,从数据可视化到 AI 推理都能胜任。黄仁勋特别强调,这款全新的服务器“能够运行有史以来所有软件的服务器”,无论是 AI 应用、Omniverse 平台,还是 Windows、Linux 操作系统,甚至是经典游戏《孤岛危机》,都能流畅运行。而B200 和 B300 服务器则专门针对密集型风冷环境进行了优化。
02 “主权AI的”新“版图”
在定义了新时代的生产工具(AI工厂)和引擎(Blackwell)之后,黄仁勋将目光投向了市场——一个正在全面觉醒的欧洲。
NVIDIA透露,欧洲拥有成为新工业革命强国的巨大潜力。这里聚集了150万开发者、近7000家初创公司,以及超过9600家企业,它们正在NVIDIA的技术平台上构建各类应用。然而,欧洲“唯一欠缺的就是基础设施”。
黄仁勋在演讲中也提到,他“很高兴看到欧洲全面投入AI,未来几年内,这里正在建设的AI基础设施将增加一个数量级”。
黄仁勋强调了“你的数据属于你(Your data belongs to you)”的理念,这些数据承载着一个民族的历史、知识和文化,理应由自己掌握。因此,每个国家都需要建设自己的AI基础设施,即“主权AI(Sovereign AI)”。
为了帮助欧洲建设这些基础设施,NVIDIA正在全面布局,扮演着“主权AI首席赋能官”的角色。具体而言体现在以下几个方面。
其一,共建AI工厂实体。NVIDIA宣布与全球能源管理巨头施耐德电气(Schneider Electric)扩大合作,共同加速AI工厂的部署。双方合作提供可扩展的参考设计,并在Omniverse平台中创建数字孪生模型,以模拟和优化AI工厂的电力、冷却、散热和流体系统,从而缩短建设周期。施耐德电气的EcoStruxure CFD工具在NVIDIA GPU的加速下,能够将气流和热分析的模拟时间从数小时缩短到几分钟。双方还在共同开发用于下一代百兆瓦甚至千兆瓦级机架的800伏直流电架构。
其二,携手云与电信运营商:NVIDIA正与欧洲的电信运营商(如Orange、Swisscom、Telefonica等)和云服务提供商(如OVHcloud等)广泛合作,共同建设AI基础设施。
其三,加码法国市场:法国是此次GTC大会的焦点。黄仁勋宣布与法国AI领域的明星企业Mistral AI建立深度合作,双方将共同建设一个由18000套Grace Blackwell系统驱动的AI云平台。法国公司Mirakl和PhotoRoom将成为首批用户。
其四,赋能欧洲各国:在英国,NVIDIA与云合作伙伴合作,利用数千个Blackwell GPU建设新的数据中心。在意大利,NVIDIA与能源和电信公司合作,推进该国的主权AI能力建设。NVIDIA甚至将业务拓展到高加索地区,宣布与亚美尼亚政府和Firebird公司合作,部署数千个Blackwell GPU,建立新的AI中心。
其五,支持超级计算中心。德国的尤利希研究中心(Jülich Supercomputing Centre)、西班牙的巴塞罗那超级计算中心(Barcelona Supercomputing Center)、丹麦的DCAI等欧洲的超级计算中心,都在使用NVIDIA的技术构建下一代AI工厂。
其六,建立AI技术中心。NVIDIA正在德国、瑞典、意大利、西班牙、英国和芬兰等地扩展其AI技术中心,以加速AI技能普及、研究进展和基础设施建设。其中,德国的中心将专注于数字医疗和开源机器人平台,而英国的中心将加速具身智能和地球系统建模的研究。
值得注意的是,黄仁勋还给出了一个令人振奋的承诺——仅在未来两年内,欧洲的AI计算能力就将提升十倍。他对台下的欧洲开发者表示:“你们的GPU短缺问题很快就会得到解决。”
03 软件赋能,用NIM、Nemo和Lepton“武装”AI
对企业而言,AI能力的构建并非一蹴而就。如何高效地训练、部署和管理AI模型,是当前面临的核心挑战。无论是利用开源模型进行定制化开发,还是将复杂的AI应用无缝集成到现有系统中,都需要一套完善的软件工具和平台。
如果说硬件是下一代智能的骨骼,那么软件AI的灵魂。NVIDIA深知,强大的软件生态系统是其制胜未来的关键。因此NVIDIA布局了多层次的软件栈,旨在全面赋能 AI 发展。
模型层:用Nemotron“赋能”开源
事实上,无论是闭源模型还是开源模型(如Mistral、Llama),都在以惊人的速度发展。NVIDIA的策略并非与之竞争,而是“赋能”和“增强”。为此,其推出了Nemotron。
Nemotron的核心思路是,获取优秀的开源模型,然后利用NVIDIA世界一流的AI技术能力对其进行“后训练(post train)”,包括进行神经架构搜索、提供更高质量的数据、使用强化学习技术、赋予其更强的推理能力、扩展其上下文窗口等。
举例来说,其中一项关键技术是“知识蒸馏(distillation)”,即通过大型模型生成合成数据来将知识传递给小型模型,从而提高其效率。该技术包括“谜题蒸馏(puzzle distillation)”,能够将大型Transformer模型提炼成更小的模型,同时保持相同的准确性,从而在更小的计算占用空间上运行,实现更高的吞吐量和更低的延迟。
其成果显著。NVIDIA透露,经过Nemotron增强的Llama模型在各项基准测试中性能大幅提升。
封装层:NIM实现“一次封装,随处运行”
有了增强的模型,便需要实现更方便、快捷地部署。此时,NVIDIA NIM的价值便凸显出来。NIM 就像一个 AI“容器”,可将优化后的模型打包成一个标准的微服务,使其能够轻松地在任何地方部署。
此次 GTC 巴黎的一项重要发布是,NIM 的灵活性得到了显著提升。过去通常是一个模型对应一个 NIM,而现在 NVIDIA 推出了一个灵活的 LM NIM,能够支持 Hugging Face上超过 10 万个不同的开源和定制模型。通过支持 vLLM、SGLang、TensorRT-LLM 等多种后端,为各种模型架构提供了优化或支持。
此外,NVIDIA 还宣布将为Mistral的开源模型和专有模型(Mistral Medium)提供 NIM 微服务,并合作利用其独特的“neural puzzle”技术,推出了更高效的“Mistral Nemotron”版本。
框架层:用Nemo和IQ构建“智能体操作系统”
当AI进入到AI Agent阶段,它便不再是单一的模型,而是由多个模型协同工作的复杂系统。黄仁勋认为,企业需要一个“AI智能体操作系统”来构建和管理这些“数字员工”,而这个操作系统就是NVIDIA的Nemo框架。
Nemo框架提供了一整套工具,用于构建“数据飞轮”,并对AI智能体进行全生命周期管理,包括模型“入职”(部署)、微调、训练、评估、设置安全护栏,确保系统安全并持续改进。此外,NVIDIA还发布了多项在AI安全、生成式AI、多模态数据提取、信息检索的Agent AI Blueprints。
部署层:用Lepton和Hugging Face连接全球算力
最后,如何将这些复杂的AI应用部署到全球分散的算力资源上?无论是公有云、私有云,还是开发者自己的桌面电脑,NVIDIA都给出了解决方案。
NVIDIA的答案是DGX Cloud Lepton。它被形容为一个“超级云(super cloud)”或“云中之云(cloud of clouds)”。通过一个统一的界面,开发者可以连接和管理分布在全球不同云服务提供商的GPU资源。
最新的进展是,Lepton现已与全球最大的AI社区Hugging Face的“训练集群即服务”深度整合。这意味着Hugging Face上超过500万的开发者,现在可以无缝地通过Lepton访问和使用NVIDIA在全球范围内的GPU资源,轻松获取训练和推理所需的算力。
04 AI变革物理世界 开启具身智能的“下一站”
黄仁勋在演讲中指出,AI将彻底变革以物理制造为核心的行业,其核心理念是:“一切物理的事物,都将以数字化的方式构建。”这一愿景主要通过NVIDIA Omniverse平台实现。
事实上,Omniverse平台已广泛应用于宝马、梅赛德斯-奔驰的工厂、法国国家铁路公司的火车站、起亚和丰田的仓库物流等。其可以实时模拟和优化的“数字工厂”,显著提升了生产效率和决策准确性。
此次,NVIDIA还宣布与工业自动化巨头西门子深化合作,将Omniverse、RTX 和CUDA-X 等技术集成到西门子全线产品中,覆盖其1500万软件用户。更重要的是,NVIDIA将在德国建立全球首个“工业AI云”,专为工业制造工作负载提供支持,涵盖设计、仿真、数字孪生和机器人训练等。
在具身智能领域,黄仁勋预判:“一切会移动的事物,都将是机器人。”这一趋势正推动着各行业对自动化和智能移动解决方案的巨大需求。
自动驾驶是具身智能的的重要体现,而NVIDIA的DRIVE平台经过近十年投入,已全面投入生产。该平台基于 HALO 安全系统,通过 Omniverse 和 Cosmos 生成合成数据进行训练,并能在车辆内部与独立软件栈并行运行以确保冗余安全。搭载该平台的梅赛德斯-奔驰 CLA 轿车已在欧洲上市,沃尔沃、捷豹、路虎的下一代车型也将陆续采用。
对于广义机器人,黄仁勋认为,人形机器人将是“有史以来最大的产业之一”。为解决机器人编程复杂性问题,NVIDIA提出像“教”AI 智能体一样“教”机器人的理念。核心教学过程是在Omniverse 构建的符合物理定律的数字孪生世界中进行。
在GTC巴黎现场展示的机器人Greg 就是在虚拟世界中学会了在各种表面行走。而这则是由NVIDIA为机器人设计的Thor超级计算机驱动的。黄仁勋强调,NVIDIA已经具备了教会机器人操作和模拟的技术。
05 “量子计算”开启下一个加速“转折点”
尽管量子计算仍处于早期,但其在材料科学、药物研发、金融分析等领域的巨大潜力备受关注。NVIDIA正为此提供强大的加速支持。
黄仁勋指出,随着逻辑量子比特的实现和量子纠错技术的发展,量子计算正处于“转折点”。Grace Blackwell是实现大规模量子纠错的关键。GPU将用于量子计算机的预处理、控制、纠错和后处理等计算密集型任务。
NVIDIA为此推出了 CUDA Q 平台,这是一个开源的智能量子编程平台,旨在将量子处理器(QPU)与 GPU 紧密集成于超级计算机中,协同解决传统计算机无法解决的问题。Grace Blackwell NVL72 系统在量子计算工作负载上已实现显著加速。据了解,在用于训练AI模型的“合成数据生成”任务上,其已经实现了超过 4000倍的加速。
NVIDIA透露,在欧洲,NVIDIA已与法国的 Pasqal 和 Alice & Bob、丹麦和德国的超级计算中心、英国爱丁堡大学等众多量子计算领域的领导者展开合作。
写在最后
在演讲即将结束之际,黄仁勋与器人Greg在台上互的那一刻,或许他所描绘的未来图景也变得更加清晰。
整体看,巴黎的GTC大会,与其说是一场技术发布会,不如说是NVIDIA向世界发布的一份“新工业革命的构建计划书”。这份计划书宣告,一场由AI驱动的新的工业革命已经拉开帷幕。它需要一种“会思考”的新型计算机(Blackwell),以及一种能够制造“智能”的新型工厂(AI工厂)。
NVIDIA的角色,正是这个新世界“蓝图”的总设计师。它不仅提供基础的“砖块”(芯片),还提供详细的“设计蓝图”(Nemo/IQ)、统一的“施工策略”(NIM)、高效的“物流”(Lepton),甚至亲自参与“示范区”的建设(工业AI云),并为更长远的未来(机器人与量子计算)铺平道路。
不光在欧洲,整个世界都正在积极拥抱AI技术,而NVIDIA已经准备好成为这场变革盛宴中提供全栈解决方案的关键供应商。
好文章,需要你的鼓励
Warp成立于2021年,致力于通过技术赋能的物流网络优化企业供应链。该公司现计划使用机器人自动化其仓储网络,进一步提升供应链效率。公司在洛杉矶测试仓库安装摄像头,利用计算机视觉技术创建数字孪生环境进行实验。经过测试,Warp成功部署改装后的现成机器人处理货物装卸和存储。公司刚完成1000万美元A轮融资,计划今年开始在核心网络城市部署机器人技术。
多伦多大学研究团队提出Squeeze3D压缩框架,巧妙利用3D生成模型的隐含压缩能力,通过训练映射网络桥接编码器与生成器的潜在空间,实现了极致的3D数据压缩。该技术对纹理网格、点云和辐射场分别达到2187倍、55倍和619倍的压缩比,同时保持高视觉质量,且无需针对特定对象训练网络,为3D内容传输和存储提供了革命性解决方案。
Continuity Software研究发现,企业存储和数据保护设备在信息安全方面存在严重盲点,使公司数据面临危险暴露。调查涵盖300个环境中超过1万台设备,发现平均每台设备存在10个漏洞,其中一半为高风险。最常见漏洞涉及身份认证管理和未修复的CVE。许多设备仍使用出厂默认密码,缺乏多因素认证。研究还发现勒索软件防护功能未启用或配置错误的情况。
浙江大学与腾讯联合研究团队提出MoA异构适配器混合方法,通过整合不同类型的参数高效微调技术,解决了传统同质化专家混合方法中的表征坍塌和负载不均衡问题。该方法在数学和常识推理任务上显著优于现有方法,同时大幅降低训练参数和计算成本,为大模型高效微调提供了新的技术路径。