除了像 Google 的 TPU 或 Amazon 的 Trainium ASIC 这样的定制云芯片外,目前大多数 AI 训练集群都由 Nvidia GPU 提供支持。但是,虽然 Nvidia 可能已经赢得了 AI 训练的战役,但推理领域的竞争远未结束。
到目前为止,业界的重点一直是构建更好、更强大和更可靠的模型。同时,大多数推理工作负载仅限于概念验证和一些简单应用,如 AI 聊天机器人和图像生成器。因此,大多数 AI 计算都针对训练而非推理进行了优化。
但随着这些模型变得更好,应用变得更复杂,AI 更深入地渗透到我们的日常生活中,这种比例在未来几年将发生显著变化。鉴于这种变化,许多错过 AI 训练机遇的芯片公司现在正跃跃欲试,想要挑战 Nvidia 的市场主导地位。
寻找细分市场
与训练相比,训练几乎普遍需要大量计算资源,通常跨越整个数据中心,并持续数天或数周消耗兆瓦级的电力,而推理则是一个更加多样化的工作负载。
在推理方面,性能主要由三个核心因素决定: - 内存容量决定了可以运行什么模型 - 内存带宽影响响应生成的速度 - 计算能力影响模型响应时间和并发处理请求的数量
但你优先考虑哪些因素,很大程度上取决于模型的架构、参数数量、托管位置和目标用户。
例如,对延迟敏感的小型模型可能更适合低功耗 NPU 甚至 CPU,而拥有数万亿参数的大语言模型则需要具有数 TB 超高速内存的数据中心级硬件。
后者正是 AMD 似乎在其 MI300 系列 GPU 中所瞄准的目标,这些 GPU 拥有 192GB 到 256GB 的高速 HBM。更大的内存意味着 AMD 能够在单个服务器中塞入比 Nvidia 更大的前沿模型,这或许可以解释为什么 Meta 和 Microsoft 等公司如此热衷于采用它们。
在另一端,Cerebras、SambaNova 和 Groq 等公司(不要与 xAI 的 Grok 系列模型混淆)则优先考虑速度,依靠其 SRAM 密集型芯片架构和推测解码等技巧,使模型运行速度比目前最好的基于 GPU 的推理即服务供应商快 5 倍、10 倍甚至 20 倍。
随着链式思维推理模型的兴起,这些模型可能需要生成数千个单词(更具体地说是 token)来回答问题,闪电般快速的推理从一个炫酷的噱头变成了真正有用的功能。
因此,像 d-Matrix 等初创公司也想加入"快速推理"游戏并不令人意外。该公司预计其将于第二季度推出的 Corsair 加速器能够以低至每个 token 2 毫秒的延迟运行 Llama 70B 等模型,据我们估计,这相当于每秒 500 个 token。该公司已将目光投向下一代 Raptor 系列芯片中的更大型号,据悉这些芯片将使用垂直堆叠 DRAM 来提升内存容量和带宽。
在低端市场,我们看到越来越多的供应商,如 Hailo AI、EnCharge 和 Axelera,正在为边缘计算和 PC 市场开发低功耗、高性能芯片。
说到 PC 市场,AMD、Intel、Qualcomm 和 Apple 等老牌芯片制造商正在竞相将更强大的 NPU 集成到他们的 SoC 中,以支持 AI 增强的工作流程。
最后,我们不能忽视云计算和超大规模供应商,他们在继续购买 Nvidia 硬件的同时,也在押注自家的芯片。
别急着把 Nvidia 排除在外
虽然 Nvidia 确实面临着前所未有的竞争,但它仍然是 AI 基础设施领域的最大玩家。通过其最新一代 GPU,该公司明显在为向大规模推理部署的转型做准备。
特别是去年发布的 Nvidia GB200 NVL72 将其 NVLink 计算域扩展到 72 个 GPU,总计超过 1.4 exaFLOPS 和 13.5TB 的内存。
在此之前,Nvidia 最强大的系统每个节点最多只能支持 8 个 GPU,vRAM 在 640GB 到 1.1TB 之间。这意味着像 GPT-4 这样的大规模前沿模型必须分布在多个系统上,不仅是为了将所有参数装入内存,还要实现合理的吞吐量。
如果 Nvidia 的预测可信,NVL72 的高速互连结构将使其在运行 1.8 万亿参数规模的专家混合模型(如 GPT-4)时,相比 8 节点、64 个 H100 GPU 的集群,实现 30 倍的吞吐量提升。
更重要的是,这些是通用 GPU,这意味着它们不仅限于训练或推理。它们可以用于训练新模型,之后再用于运行这些模型——这一点并非所有觊觎 Jensen 地盘的芯片新秀都能做到。
随着 GTC 大会下周开幕,Nvidia 预计将详细介绍其下一代 Blackwell-Ultra 平台,如果它与 H200 系列 GPU 相似,应该会专门针对推理进行优化。
鉴于 Nvidia 今年早些时候推出了基于 Blackwell 的 RTX 卡,我们也不会对 L40 的继任者甚至一些更新的工作站级显卡感到惊讶。
归根结底,推理是一场 token/美元的游戏
无论 AI 服务提供商最终用什么硬件来装备他们的数据中心,推理的经济性最终都归结为每美元能处理多少 token。
我们并不是说开发者不愿意为访问最新模型或更高的吞吐量支付额外费用,特别是如果这能帮助他们的应用或服务脱颖而出。
但从开发者的角度来看,这些服务无非就是一个 API 接口,他们将应用连接到这个接口上,按需获取 token。
他们使用的是 Nvidia 的 Blackwell 部件还是某个你从未听说过的定制加速器,这些都被完全抽象在通常最终成为 OpenAI 兼容的 API 端点之后。
好文章,需要你的鼓励
亚马逊宣布向Anthropic追加50亿美元投资,分析师指出此举更多是为解决AI算力瓶颈。根据协议,Anthropic将锁定AWS最高5吉瓦的Trainium芯片算力,包括新一代Trainium 3和Trainium 4。此前Anthropic因容量不足被迫限流,此次扩容将提升用户并发支持能力。协议还涵盖亚欧地区推理算力扩展。分析师指出,此类交易已超越传统风险投资范畴,本质是"供应链融资"——将股权投资与云计算承诺捆绑,以锁定客户并确保资本回报。
这篇由清华大学、香港大学、美团LongCat团队等机构联合发布于2026年4月的综述(arXiv:2604.10098),是关于Transformer"注意力沉积"(Attention Sink)问题的首篇全面系统性研究。注意力沉积是指AI模型将大量注意力集中到语义无关的词上的普遍现象。综述梳理超过180篇研究,围绕"如何利用、如何解释、如何消除"三个维度构建了完整知识体系,涵盖大语言模型、视觉Transformer、多模态模型等多种架构,为AI推理效率、幻觉治理和低精度部署提供了系统性指导。
前微软工程师Dave Plummer是任务管理器的原始开发者,他近日解释了CPU使用率显示背后的原理。任务管理器并非实时读取CPU数值,而是通过定时器采样,计算两次采样间的CPU累计执行时间差来估算使用率。这一方法在早期静态时钟频率的CPU上表现良好,但在现代CPU动态调频、核心休眠等机制普及后,显示结果更接近"占用率"而非真实"生产力",导致数字有时显得不够精准。
这项由加州大学圣地亚哥分校等多家机构联合发布于2026年4月的研究(arXiv:2604.11201),推出了名为COCOABENCH的AI综合能力测试平台,包含153道需要同时运用视觉理解、网络搜索和编程三种能力的真实任务,并配套轻量级测试框架COCOA-AGENT。测试发现,当前最强AI系统成功率仅为45.1%,主要失败原因集中在推理规划、工具执行和视觉感知三大方面,揭示了现有AI距离"真正全能数字助手"仍有显著差距。