Nvidia 赢得了 AI 训练竞赛，但推理市场仍未尘埃落定

目前，除了谷歌的TPU或亚马逊的Trainium ASIC等定制云硅，绝大多数正在构建的AI训练集群都由Nvidia的GPU驱动。尽管Nvidia在AI训练战斗中获胜，但推理的竞争远未结束。

除了像 Google 的 TPU 或 Amazon 的 Trainium ASIC 这样的定制云芯片外，目前大多数 AI 训练集群都由 Nvidia GPU 提供支持。但是，虽然 Nvidia 可能已经赢得了 AI 训练的战役，但推理领域的竞争远未结束。

到目前为止，业界的重点一直是构建更好、更强大和更可靠的模型。同时，大多数推理工作负载仅限于概念验证和一些简单应用，如 AI 聊天机器人和图像生成器。因此，大多数 AI 计算都针对训练而非推理进行了优化。

但随着这些模型变得更好，应用变得更复杂，AI 更深入地渗透到我们的日常生活中，这种比例在未来几年将发生显著变化。鉴于这种变化，许多错过 AI 训练机遇的芯片公司现在正跃跃欲试，想要挑战 Nvidia 的市场主导地位。

寻找细分市场

与训练相比，训练几乎普遍需要大量计算资源，通常跨越整个数据中心，并持续数天或数周消耗兆瓦级的电力，而推理则是一个更加多样化的工作负载。

在推理方面，性能主要由三个核心因素决定： - 内存容量决定了可以运行什么模型 - 内存带宽影响响应生成的速度 - 计算能力影响模型响应时间和并发处理请求的数量

但你优先考虑哪些因素，很大程度上取决于模型的架构、参数数量、托管位置和目标用户。

例如，对延迟敏感的小型模型可能更适合低功耗 NPU 甚至 CPU，而拥有数万亿参数的大语言模型则需要具有数 TB 超高速内存的数据中心级硬件。

后者正是 AMD 似乎在其 MI300 系列 GPU 中所瞄准的目标，这些 GPU 拥有 192GB 到 256GB 的高速 HBM。更大的内存意味着 AMD 能够在单个服务器中塞入比 Nvidia 更大的前沿模型，这或许可以解释为什么 Meta 和 Microsoft 等公司如此热衷于采用它们。

在另一端，Cerebras、SambaNova 和 Groq 等公司（不要与 xAI 的 Grok 系列模型混淆）则优先考虑速度，依靠其 SRAM 密集型芯片架构和推测解码等技巧，使模型运行速度比目前最好的基于 GPU 的推理即服务供应商快 5 倍、10 倍甚至 20 倍。

随着链式思维推理模型的兴起，这些模型可能需要生成数千个单词（更具体地说是 token）来回答问题，闪电般快速的推理从一个炫酷的噱头变成了真正有用的功能。

因此，像 d-Matrix 等初创公司也想加入"快速推理"游戏并不令人意外。该公司预计其将于第二季度推出的 Corsair 加速器能够以低至每个 token 2 毫秒的延迟运行 Llama 70B 等模型，据我们估计，这相当于每秒 500 个 token。该公司已将目光投向下一代 Raptor 系列芯片中的更大型号，据悉这些芯片将使用垂直堆叠 DRAM 来提升内存容量和带宽。

在低端市场，我们看到越来越多的供应商，如 Hailo AI、EnCharge 和 Axelera，正在为边缘计算和 PC 市场开发低功耗、高性能芯片。

说到 PC 市场，AMD、Intel、Qualcomm 和 Apple 等老牌芯片制造商正在竞相将更强大的 NPU 集成到他们的 SoC 中，以支持 AI 增强的工作流程。

最后，我们不能忽视云计算和超大规模供应商，他们在继续购买 Nvidia 硬件的同时，也在押注自家的芯片。

别急着把 Nvidia 排除在外

虽然 Nvidia 确实面临着前所未有的竞争，但它仍然是 AI 基础设施领域的最大玩家。通过其最新一代 GPU，该公司明显在为向大规模推理部署的转型做准备。

特别是去年发布的 Nvidia GB200 NVL72 将其 NVLink 计算域扩展到 72 个 GPU，总计超过 1.4 exaFLOPS 和 13.5TB 的内存。

在此之前，Nvidia 最强大的系统每个节点最多只能支持 8 个 GPU，vRAM 在 640GB 到 1.1TB 之间。这意味着像 GPT-4 这样的大规模前沿模型必须分布在多个系统上，不仅是为了将所有参数装入内存，还要实现合理的吞吐量。

如果 Nvidia 的预测可信，NVL72 的高速互连结构将使其在运行 1.8 万亿参数规模的专家混合模型（如 GPT-4）时，相比 8 节点、64 个 H100 GPU 的集群，实现 30 倍的吞吐量提升。

更重要的是，这些是通用 GPU，这意味着它们不仅限于训练或推理。它们可以用于训练新模型，之后再用于运行这些模型——这一点并非所有觊觎 Jensen 地盘的芯片新秀都能做到。

随着 GTC 大会下周开幕，Nvidia 预计将详细介绍其下一代 Blackwell-Ultra 平台，如果它与 H200 系列 GPU 相似，应该会专门针对推理进行优化。

鉴于 Nvidia 今年早些时候推出了基于 Blackwell 的 RTX 卡，我们也不会对 L40 的继任者甚至一些更新的工作站级显卡感到惊讶。

归根结底，推理是一场 token/美元的游戏

无论 AI 服务提供商最终用什么硬件来装备他们的数据中心，推理的经济性最终都归结为每美元能处理多少 token。

我们并不是说开发者不愿意为访问最新模型或更高的吞吐量支付额外费用，特别是如果这能帮助他们的应用或服务脱颖而出。

但从开发者的角度来看，这些服务无非就是一个 API 接口，他们将应用连接到这个接口上，按需获取 token。

他们使用的是 Nvidia 的 Blackwell 部件还是某个你从未听说过的定制加速器，这些都被完全抽象在通常最终成为 OpenAI 兼容的 API 端点之后。

来源：The Register

0赞

好文章，需要你的鼓励

Nvidia 赢得了 AI 训练竞赛，但推理市场仍未尘埃落定

来源：The Register

2025

03/13

14:51

分享

点赞

突破当前大语言模型瓶颈的六大AI发展路径

IBM与英伟达竞争对手Groq达成合作，加速企业AI部署

洛克希德·马丁CIO谈数字化转型与使命文化

欧盟法规加剧挪威AI企业外流担忧

Arelion完成波罗的海网络扩张 构建韧性连接路由

Equinix推出分布式AI基础设施连接全球数据中心

Adobe推出企业级定制生成式AI模型代工服务

OpenInfra欧洲峰会：政治紧张局势下的数字主权挑战

Companion.energy推出成本与碳感知智能网络优化方案

Open Cosmos将为西班牙打造大西洋卫星星座

微软Copilot使用量监测背后的真实动机

IBM与Groq联手加速智能体AI发展：让实时智能成为企业现实

AI 时代的数据中心：未来十年规划展望

AI 编程助手拒绝写代码，建议用户自学编程

超越 ChatGPT：通往通用人工智能的 5 大挑战

Oracle 在 AI 主流化方面具有重大优势

Snap 推出基于自研生成模型的 AI 视频滤镜

Google 的 Gemma 3：一款支持 128K 上下文窗口的开源单 GPU AI 模型

精灵宝可梦 GO 迎来新东家，而 Niantic 正借助 AI 和 AR 重塑地图业务

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

Google 推出两款全新 AI 机器人控制模型

Nvidia 赢得了 AI 训练竞赛，但推理市场仍未尘埃落定

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

Arelion完成波罗的海网络扩张构建韧性连接路由