除了像 Google 的 TPU 或 Amazon 的 Trainium ASIC 这样的定制云芯片外,目前大多数 AI 训练集群都由 Nvidia GPU 提供支持。但是,虽然 Nvidia 可能已经赢得了 AI 训练的战役,但推理领域的竞争远未结束。
到目前为止,业界的重点一直是构建更好、更强大和更可靠的模型。同时,大多数推理工作负载仅限于概念验证和一些简单应用,如 AI 聊天机器人和图像生成器。因此,大多数 AI 计算都针对训练而非推理进行了优化。
但随着这些模型变得更好,应用变得更复杂,AI 更深入地渗透到我们的日常生活中,这种比例在未来几年将发生显著变化。鉴于这种变化,许多错过 AI 训练机遇的芯片公司现在正跃跃欲试,想要挑战 Nvidia 的市场主导地位。
寻找细分市场
与训练相比,训练几乎普遍需要大量计算资源,通常跨越整个数据中心,并持续数天或数周消耗兆瓦级的电力,而推理则是一个更加多样化的工作负载。
在推理方面,性能主要由三个核心因素决定: - 内存容量决定了可以运行什么模型 - 内存带宽影响响应生成的速度 - 计算能力影响模型响应时间和并发处理请求的数量
但你优先考虑哪些因素,很大程度上取决于模型的架构、参数数量、托管位置和目标用户。
例如,对延迟敏感的小型模型可能更适合低功耗 NPU 甚至 CPU,而拥有数万亿参数的大语言模型则需要具有数 TB 超高速内存的数据中心级硬件。
后者正是 AMD 似乎在其 MI300 系列 GPU 中所瞄准的目标,这些 GPU 拥有 192GB 到 256GB 的高速 HBM。更大的内存意味着 AMD 能够在单个服务器中塞入比 Nvidia 更大的前沿模型,这或许可以解释为什么 Meta 和 Microsoft 等公司如此热衷于采用它们。
在另一端,Cerebras、SambaNova 和 Groq 等公司(不要与 xAI 的 Grok 系列模型混淆)则优先考虑速度,依靠其 SRAM 密集型芯片架构和推测解码等技巧,使模型运行速度比目前最好的基于 GPU 的推理即服务供应商快 5 倍、10 倍甚至 20 倍。
随着链式思维推理模型的兴起,这些模型可能需要生成数千个单词(更具体地说是 token)来回答问题,闪电般快速的推理从一个炫酷的噱头变成了真正有用的功能。
因此,像 d-Matrix 等初创公司也想加入"快速推理"游戏并不令人意外。该公司预计其将于第二季度推出的 Corsair 加速器能够以低至每个 token 2 毫秒的延迟运行 Llama 70B 等模型,据我们估计,这相当于每秒 500 个 token。该公司已将目光投向下一代 Raptor 系列芯片中的更大型号,据悉这些芯片将使用垂直堆叠 DRAM 来提升内存容量和带宽。
在低端市场,我们看到越来越多的供应商,如 Hailo AI、EnCharge 和 Axelera,正在为边缘计算和 PC 市场开发低功耗、高性能芯片。
说到 PC 市场,AMD、Intel、Qualcomm 和 Apple 等老牌芯片制造商正在竞相将更强大的 NPU 集成到他们的 SoC 中,以支持 AI 增强的工作流程。
最后,我们不能忽视云计算和超大规模供应商,他们在继续购买 Nvidia 硬件的同时,也在押注自家的芯片。
别急着把 Nvidia 排除在外
虽然 Nvidia 确实面临着前所未有的竞争,但它仍然是 AI 基础设施领域的最大玩家。通过其最新一代 GPU,该公司明显在为向大规模推理部署的转型做准备。
特别是去年发布的 Nvidia GB200 NVL72 将其 NVLink 计算域扩展到 72 个 GPU,总计超过 1.4 exaFLOPS 和 13.5TB 的内存。
在此之前,Nvidia 最强大的系统每个节点最多只能支持 8 个 GPU,vRAM 在 640GB 到 1.1TB 之间。这意味着像 GPT-4 这样的大规模前沿模型必须分布在多个系统上,不仅是为了将所有参数装入内存,还要实现合理的吞吐量。
如果 Nvidia 的预测可信,NVL72 的高速互连结构将使其在运行 1.8 万亿参数规模的专家混合模型(如 GPT-4)时,相比 8 节点、64 个 H100 GPU 的集群,实现 30 倍的吞吐量提升。
更重要的是,这些是通用 GPU,这意味着它们不仅限于训练或推理。它们可以用于训练新模型,之后再用于运行这些模型——这一点并非所有觊觎 Jensen 地盘的芯片新秀都能做到。
随着 GTC 大会下周开幕,Nvidia 预计将详细介绍其下一代 Blackwell-Ultra 平台,如果它与 H200 系列 GPU 相似,应该会专门针对推理进行优化。
鉴于 Nvidia 今年早些时候推出了基于 Blackwell 的 RTX 卡,我们也不会对 L40 的继任者甚至一些更新的工作站级显卡感到惊讶。
归根结底,推理是一场 token/美元的游戏
无论 AI 服务提供商最终用什么硬件来装备他们的数据中心,推理的经济性最终都归结为每美元能处理多少 token。
我们并不是说开发者不愿意为访问最新模型或更高的吞吐量支付额外费用,特别是如果这能帮助他们的应用或服务脱颖而出。
但从开发者的角度来看,这些服务无非就是一个 API 接口,他们将应用连接到这个接口上,按需获取 token。
他们使用的是 Nvidia 的 Blackwell 部件还是某个你从未听说过的定制加速器,这些都被完全抽象在通常最终成为 OpenAI 兼容的 API 端点之后。
好文章,需要你的鼓励
Snapchat 首次推出由自研生成视频模型驱动的 AI 视频滤镜。这三款新滤镜仅向付费用户开放,每月订阅费 15.99 美元。Snap 此举旨在保持竞争力,为用户提供独特功能。公司计划每周增加新滤镜,目前包括"浣熊"、"狐狸"和"春花"三款。用户可通过镜头轮盘访问并保存生成的 AI 视频。
Google最新的人工智能模型Gemma 3在参数和上下文窗口方面都有显著提升,旨在为开发者提供高效的单GPU或AI加速器解决方案。它支持多种数据类型的处理,并且可以在不同环境中运行。Gemma 3的上下文窗口扩展至128,000个token,适合各种硬件使用,且开源可供下载。
宝可梦 GO 游戏即将迎来新的公司管理者。与此同时,前母公司 Niantic 正将重心从游戏转向利用游戏数据生成 AI 地图。Niantic 保留了 Ingress 和 Peridot 等 AR 游戏的控制权,并更名为 Niantic Spatial,显示出公司未来发展方向。Niantic 计划利用玩家贡献的扫描数据,训练 AI 理解现实世界,为未来 AR 眼镜等设备提供支持。这一转变反映了科技公司探索 AI 理解现实世界的新趋势。
谷歌最新的开源 AI 模型 Gemma 3 并不是今天 Alphabet 子公司唯一的重要新闻。实际上,谷歌的 Gemini 2.0 Flash 以原生图像生成技术吸引了更多的关注,这是一个可供 Google AI Studio 用户和开发者通过谷歌的 Gemini API 免费使用的新实验模型。这是美国主要科技公司首次将多模态图像生成直接集成到模型中供消费者使用。与其他大多数 AI 图像生成工具不同,Gemini 2.0 Flash 可以在用户输入文本提示的同一模型中原生生成图像,理论上允许更高的准确性和更多的功能,早期迹象表明这一点完全正确。