GTC 2025 | 黄仁勋:AI迎来新的拐点,2024年几乎全世界都错了! 原创

聚光灯下,硅谷的心脏圣何塞SAP中心的穹顶被全息投影点亮,空气中跃动的比特流编织成"AI工厂"的神经元图腾。“我站在没有退路的舞台,没有预设的剧本,没有提词器的指引,唯有满腹所思亟待倾吐。”2025年3月18日,在GTC 2025大会舞台中央站定,NVIDIA创始人黄仁勋这样说。

 GeForce 5090在全球火”到售罄

GTC始于GeForce ,而25年后,GeForce 5090在全球范围内售罄。

这款基于 Blackwell 架构的 GPU 是英伟达在过去 25 年中研发的成果之一。与前代产品 4090 相比,5090 的体积缩小了 30%,能量耗散效率提升了 30%,性能也得到了显著提升。这种性能的提升主要得益于 AI 技术的应用。

这种进步的原因在于人工智能。GeForce将CUDA带到了世界,从而实现了AI,而AI现在又反过来彻底改变了计算机图形。

GeForce 5090 不仅是一款强大的图形处理器,更是 AI 技术的载体。它将 CUDA 技术带给了世界,而 CUDA 技术正是推动 AI 发展的关键因素之一。通过 CUDA,开发者可以利用 GPU 的强大计算能力来加速 AI 模型的训练和推理过程。

黄仁勋还提到,GeForce 5090 的成功是 AI 发展的一个重要里程碑。它展示了 AI 技术如何推动硬件设计的进步,同时也为未来的 AI应用提供了更强大的计算支持。

2024年几乎全世界都错了——AI的拐点是“推理”

每一阶段的人工智能发展,都涉及基本三要素。黄仁勋说。

第一是数据驱动。AI需通过海量数据学习知识、积累数字经验,数据质量与规模直接影响其智能水平。

第二是自主训练能力。现代AI能以超实时速度和超人规模自主学习,无需人工干预,例如通过强化学习在数百次试错中优化决策。

第三是规模化定律。资源投入与AI智能水平正相关,算力、数据量和模型参数规模的扩展推动性能跃升。

但是,去年几乎全世界都错了。

早期的ChatGPT,依赖“单次响应”模式,直接从预训练数据中生成答案,但遇到复杂问题,则常常因缺乏推理过程而错误频出。 黄仁勋强调,如今,能够逐步推理的Agentic AI,目前所需的计算量,比去年同期的预期至少减少了100倍。

没错,Agentic AI就是推理。黄仁勋表示,AI正在经历一个拐点——AI正在变得更有用更聪明了,能够进行推理,同时被更多地使用。

事实上,推理就是通过“思维链”(Chain of Thought)、“多路径规划”和“一致性检查”等策略,AI可将问题分解为多步逻辑推理,显著提升准确性。 代价与挑战 :推理过程需生成10倍于以往的Token,为维持响应速度,算力需求激增,倒逼计算基础设施升级。

然而,借助强化学习,能够生成海量Token。利用这种机器人式的方法来训练AI,则带来了巨大的计算挑战。

黄仁勋如是说:“我曾作出预测,数据中心建设投资规模将攀升至一万亿美元,并且我有十足的把握,认为这一目标很快就会达成 。”

事实上,黄仁勋的预测已经得到了强力的佐证,根据TrendForce集邦咨询的最新调查报告,2024年AI服务器市场增长动能强劲,尤其是搭载NVIDIA Hopper系列GPU的服务器需求大幅增加,导致AI服务器出货量年增长46%。预计2025年,AI服务器出货量将同比增长近28%,占整体服务器出货量的比例将进一步提升至超过15%‌。

Hopper可以为每个用户每秒产生大约100个Token。”黄仁勋说。

其实,出货量增长的背后,还缘与通用计算已步入发展瓶颈,亟需一种全新的计算模式。

当下,全球正处于一场平台变革之中,从运行于通用计算机上的手工编码软件,转向运行在加速器与 GPU 上的机器学习软件。这种新兴的计算方式目前已跨越发展的拐点,正是这个拐点,正加速着旧式数据中心构建方式转变为构建新型基础设施的新方式——“AI工厂”

 省越多——相同ISO 功率,25倍能效

也正因如此,NVIDIA宣布在这一次,推出AI工厂的操作系统——Dynamo。

NVIDIA Dynamo作为一款精心打造的开源推理服务框架,以其独特的优势在大规模分布式环境中崭露头角。它具备高吞吐量与低延迟的显著特点,专门为生成式人工智能与推理模型的部署而设计,是行业内不可多得的利器。

黄仁勋表示,未来应用程序并非企业IT,而是智能体。操作系统是Dynamo类的软件。

Dynamo 不仅能帮助 Hopper,对 Blackwell 的帮助更大,Blackwell 的性能远优于 Hopper。因为在数据中心相同的 ISO 功率限制下,Blackwell 方案的效率比 Hopper 提升了 25 倍,性能优势明显。这意味着,在数据中心有限的能量条件下,Blackwell 能够实现更高的运算效率。

更值得注意的是,配备 Dynamo 的 Blackwell NVLink 72的 AI 工厂性能是 Hopper 的 40 倍,体现了其在实际应用中的强大优势。黄仁勋透露,NVIDIA 计划于今年下半年推出升级版的 Blackwell Ultra MB-Link 72,该版本的处理能力将提升 1.5 倍,并新增注意力指令,内存容量也将提升至原来的 1.5 倍,进一步强化了其性能表现。

所以,购买越多,节省越多

“先横后纵”——2026 年发布下一代 AI 芯片平台

在AI 芯片平台的演进方面,NVIDIA则宣布将将于 2026 年下半年发布Vera Rubin NVL144,届时有望为 AI 领域带来更强大的计算能力。NVIDIA 一直以来都以科学家的名字为其芯片架构命名,这已成为其文化的重要组成部分。此次,NVIDIA 延续这一传统,将下一代 AI 芯片平台命名为 “Vera Rubin”,以纪念美国著名天文学家Vera Rubin。

据黄仁勋介绍,Rubin 架构的性能将达到 Hopper 的 900 倍,相比之下,Blackwell 架构已经实现了对 Hopper 68 倍的性能提升。Vera Rubin NVL144 预计将于 2026 年下半年发布,届时有望为 AI 领域带来更强大的计算能力。

计算架构的突破方面,黄仁勋认为,在纵向扩展之前,应该先横向扩展。作为横向扩展的核心,NVLink通过低延迟、高带宽的互连技术,将数百甚至数千个GPU整合为一个"巨型芯片"  。其第六代交换机已实现72个GPU的紧密协同,使系统表现为单一计算单元,显著提升内存访问效率和能效比 。

计算具有三大支柱,其一是计算本身,其二是网络黄仁勋说。

在网络层面,NVIDIA决定扩展网络架构投资Spectrum(基于以太网的增强型网络平台,通过动态路由、硬件级拥塞控制和性能隔离技术)、InfiniBand(专为低延迟、低抖动场景设计,通过等距路由保证数据同步性)。

这种"先横后纵"的扩展策略,使NVIDIA能够为AI工厂提供从单芯片到超算集群的全栈解决方案。黄仁勋表示,而Spectrum X将成NVIDIA为企业转型AI公司的关键赋能平台。

 “快慢速思考”双系统——Isaac GR00T N1通用人形机器人宣布开

在这次GTC上,NVIDIA还发布了开源的Isaac GR00T N1通用人形机器人基础模型,具备完整的资料集、多模式输入以及开源特性,有望帮助研究人员针对特定场景或应用任务。

核心技术突破方面 Isaac GR00T N1采用独特的双系统架构设计,用于快速和慢速思考,灵感源于人类认知机制:

系统1(快速反应) :基于8000万参数的扩散变换器,以200Hz高频实时生成动作轨迹,实现0.1秒级避障、抓取等即时响应能力,突破传统机器人预设指令限制 。

系统2(决策规划) :依托70亿参数的多模态视觉-语言模型(NVIDIA-Eagle + SmolLM-1.7B),以7-9Hz处理语义指令并分解任务,例如将"整理客厅"拆解为物品识别、路径规划等步骤,医疗场景中还能综合病房布局规划最优配送路径。

GR00T N1的开源策略,降低了90%开发成本,吸引波士顿动力、Agility Robotics等14家顶尖企业接入。开发者可基于开源代码快速定制应用,如1X Technologies仅用2周,便完成家庭机器人NeoGamma训练  。 同步发布的Newton物理引擎由NVIDIA、DeepMind与迪士尼联合开发,专为机器人触觉反馈和精细动作设计,支持GPU加速模拟。其与MuJoCo框架兼容,可将机器学习负载处理速度提升70倍,助力虚拟环境超实时训练。

“利用基于英伟达Omniverse和Cosmos构建的蓝图,开发者可以生成海量多样化的合成数据,用于训练机器人的策略。”黄仁勋强调。

不仅如此,NVIDIA更是构建了“合成数据生成-模拟训练-集群测试”的全流程。

Omniverse蓝图:生成海量多样化合成数据,覆盖工业抓取、家庭服务等场景。

Isaac Lab:进行强化学习与模仿训练,优化机器人策略。

Mega集群测试平台:在Blackwell工厂数字孪生中验证多机器人协同,确保空间推理与灵巧操作可靠性。

黄仁勋预测,全球劳动力短缺5000万的背景下,人形机器人将催生千亿美元级市场。随着GR00T N1开源生态的扩展和Newton引擎落地,机器人技术正从实验室快速走向工业、医疗、家庭等场景,开启“人机共生”新时代。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2025

03/24

11:32

分享

点赞

邮件订阅