除了像 Google 的 TPU 或 Amazon 的 Trainium ASIC 这样的定制云芯片外,目前大多数 AI 训练集群都由 Nvidia GPU 提供支持。但是,虽然 Nvidia 可能已经赢得了 AI 训练的战役,但推理领域的竞争远未结束。
到目前为止,业界的重点一直是构建更好、更强大和更可靠的模型。同时,大多数推理工作负载仅限于概念验证和一些简单应用,如 AI 聊天机器人和图像生成器。因此,大多数 AI 计算都针对训练而非推理进行了优化。
但随着这些模型变得更好,应用变得更复杂,AI 更深入地渗透到我们的日常生活中,这种比例在未来几年将发生显著变化。鉴于这种变化,许多错过 AI 训练机遇的芯片公司现在正跃跃欲试,想要挑战 Nvidia 的市场主导地位。
寻找细分市场
与训练相比,训练几乎普遍需要大量计算资源,通常跨越整个数据中心,并持续数天或数周消耗兆瓦级的电力,而推理则是一个更加多样化的工作负载。
在推理方面,性能主要由三个核心因素决定: - 内存容量决定了可以运行什么模型 - 内存带宽影响响应生成的速度 - 计算能力影响模型响应时间和并发处理请求的数量
但你优先考虑哪些因素,很大程度上取决于模型的架构、参数数量、托管位置和目标用户。
例如,对延迟敏感的小型模型可能更适合低功耗 NPU 甚至 CPU,而拥有数万亿参数的大语言模型则需要具有数 TB 超高速内存的数据中心级硬件。
后者正是 AMD 似乎在其 MI300 系列 GPU 中所瞄准的目标,这些 GPU 拥有 192GB 到 256GB 的高速 HBM。更大的内存意味着 AMD 能够在单个服务器中塞入比 Nvidia 更大的前沿模型,这或许可以解释为什么 Meta 和 Microsoft 等公司如此热衷于采用它们。
在另一端,Cerebras、SambaNova 和 Groq 等公司(不要与 xAI 的 Grok 系列模型混淆)则优先考虑速度,依靠其 SRAM 密集型芯片架构和推测解码等技巧,使模型运行速度比目前最好的基于 GPU 的推理即服务供应商快 5 倍、10 倍甚至 20 倍。
随着链式思维推理模型的兴起,这些模型可能需要生成数千个单词(更具体地说是 token)来回答问题,闪电般快速的推理从一个炫酷的噱头变成了真正有用的功能。
因此,像 d-Matrix 等初创公司也想加入"快速推理"游戏并不令人意外。该公司预计其将于第二季度推出的 Corsair 加速器能够以低至每个 token 2 毫秒的延迟运行 Llama 70B 等模型,据我们估计,这相当于每秒 500 个 token。该公司已将目光投向下一代 Raptor 系列芯片中的更大型号,据悉这些芯片将使用垂直堆叠 DRAM 来提升内存容量和带宽。
在低端市场,我们看到越来越多的供应商,如 Hailo AI、EnCharge 和 Axelera,正在为边缘计算和 PC 市场开发低功耗、高性能芯片。
说到 PC 市场,AMD、Intel、Qualcomm 和 Apple 等老牌芯片制造商正在竞相将更强大的 NPU 集成到他们的 SoC 中,以支持 AI 增强的工作流程。
最后,我们不能忽视云计算和超大规模供应商,他们在继续购买 Nvidia 硬件的同时,也在押注自家的芯片。
别急着把 Nvidia 排除在外
虽然 Nvidia 确实面临着前所未有的竞争,但它仍然是 AI 基础设施领域的最大玩家。通过其最新一代 GPU,该公司明显在为向大规模推理部署的转型做准备。
特别是去年发布的 Nvidia GB200 NVL72 将其 NVLink 计算域扩展到 72 个 GPU,总计超过 1.4 exaFLOPS 和 13.5TB 的内存。
在此之前,Nvidia 最强大的系统每个节点最多只能支持 8 个 GPU,vRAM 在 640GB 到 1.1TB 之间。这意味着像 GPT-4 这样的大规模前沿模型必须分布在多个系统上,不仅是为了将所有参数装入内存,还要实现合理的吞吐量。
如果 Nvidia 的预测可信,NVL72 的高速互连结构将使其在运行 1.8 万亿参数规模的专家混合模型(如 GPT-4)时,相比 8 节点、64 个 H100 GPU 的集群,实现 30 倍的吞吐量提升。
更重要的是,这些是通用 GPU,这意味着它们不仅限于训练或推理。它们可以用于训练新模型,之后再用于运行这些模型——这一点并非所有觊觎 Jensen 地盘的芯片新秀都能做到。
随着 GTC 大会下周开幕,Nvidia 预计将详细介绍其下一代 Blackwell-Ultra 平台,如果它与 H200 系列 GPU 相似,应该会专门针对推理进行优化。
鉴于 Nvidia 今年早些时候推出了基于 Blackwell 的 RTX 卡,我们也不会对 L40 的继任者甚至一些更新的工作站级显卡感到惊讶。
归根结底,推理是一场 token/美元的游戏
无论 AI 服务提供商最终用什么硬件来装备他们的数据中心,推理的经济性最终都归结为每美元能处理多少 token。
我们并不是说开发者不愿意为访问最新模型或更高的吞吐量支付额外费用,特别是如果这能帮助他们的应用或服务脱颖而出。
但从开发者的角度来看,这些服务无非就是一个 API 接口,他们将应用连接到这个接口上,按需获取 token。
他们使用的是 Nvidia 的 Blackwell 部件还是某个你从未听说过的定制加速器,这些都被完全抽象在通常最终成为 OpenAI 兼容的 API 端点之后。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
延世大学研究团队通过分析AI推理过程中的信息密度模式,发现成功的AI推理遵循特定规律:局部信息分布平稳但全局可以不均匀。这一发现颠覆了传统的均匀信息密度假说在AI领域的应用,为构建更可靠的AI推理系统提供了新思路,在数学竞赛等高难度任务中显著提升了AI的推理准确率。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
蒙特利尔大学团队发现让AI"分段思考"的革命性方法Delethink,通过模仿人类推理模式将长篇思考分解为固定长度块,仅保留关键信息摘要。1.5B小模型击败传统大模型,训练成本降至四分之一,计算复杂度从平方级降为线性级,能处理十万词汇超长推理,为高效AI推理开辟新道路。