NVIDIA Blackwell 平台已被 Baseten、DeepInfra、Fireworks AI 和 Together AI 等领先推理提供商广泛采用,将每 token 成本降至原来的 1/10。如今,NVIDIA Blackwell Ultra 平台正将这一势头进一步推向代理式 AI 领域。
AI 智能体和编程助手正推动软件编程相关 AI 查询量呈现爆发式增长:据 OpenRouter 发布的推理现状报告显示,此类查询占比去年已从 11% 上升至约 50%。此类应用需要低延迟以维持多步骤工作流中的实时响应能力,同时在跨整个代码库进行推理时需支持长上下文处理。
最新 SemiAnalysis InferenceX 性能数据显示,NVIDIA 的软件优化与新一代 Blackwell Ultra 平台的结合在两方面均实现了突破性进展。NVIDIA GB300 NVL72 系统每兆瓦可提供高达 50 倍的吞吐量,每 token 成本降低至 NVIDIA Hopper 平台的 1/35。
通过跨芯片、系统架构和软件领域的创新,NVIDIA 的极致协同设计加速了从智能体编程到交互式编程助手等各类 AI 工作负载的性能提升,同时实现了大规模部署的成本优化。

GB300 NVL72 为低延迟工作负载提供高达 50 倍的性能提升
Signal65 的一份近期分析表明,采用极致软硬件协同设计的 NVIDIA GB200 NVL72 芯片,相较于 NVIDIA Hopper 平台,其每瓦可处理的 token 数提升超过10倍,每 token 成本降至其 1/10。随着底层技术栈的持续优化,这些显著的性能提升空间仍在不断扩大。
NVIDIA TensorRT-LLM、NVIDIA Dynamo、Mooncake 和 SGLang 团队持续进行的优化,显著提升了 Blackwell NVL72 在所有延迟目标下混合专家模型(MoE)推理的吞吐量。例如,NVIDIA TensorRT-LLM 库的改进使 GB200 在低延迟工作负载上的性能较四个月前提升高达 5 倍。
基于这些软件进步,搭载 Blackwell Ultra GPU 的 GB300 NVL72 将每兆瓦吞吐量提升至 Hopper 平台的 50 倍。
这种性能提升转化为经济效益上的优势,与 Hopper 平台相比,NVIDIA GB300 在整个延迟范围内都可降低成本。最显著的降幅出现在低延迟场景,即智能体应用运行的领域:每百万 token 的成本是 Hopper 平台的 1/35。

NVIDIA GB300 NVL72 及协同设计的软件栈(包括 NVIDIA Dynamo 和 TensorRT-LLM)相比 NVIDIA Hopper 平台,实现了每 token 成本降低至 1/35。
对于智能体编程和交互式助手这类工作负载,在多步骤工作流中每毫秒的延迟都会累积放大。这种持续的软件优化与新一代硬件的结合,使 AI 平台能够将实时交互体验扩展至更多用户。
GB300 NVL72 为长上下文工作负载提供卓越的经济效益
虽然 GB200 NVL72 和 GB300 NVL72 都能高效实现超低延迟,但 GB300 NVL72 在长上下文场景中的优势尤为突出。对于输入 128,000 token、输出 8,000 token 的工作负载(例如跨代码库推理的 AI 编程助手),GB300 NVL72 的每 token 成本降至 GB200 NVL72 的 2/3。

NVIDIA GB300 NVL72 专为低延迟、长上下文工作负载而设计。
随着智能体读取更多代码,上下文逐渐增长。这使其能更深入理解代码库,但也需要更强大的计算能力。Blackwell Ultra 的 NVFP4 计算性能提升 1.5 倍,注意力处理速度提升 2 倍,使智能体能够高效理解整个代码库。
为代理式 AI 打造的基础设施
领先的云服务提供商和 AI 创新者已大规模部署 NVIDIA GB200 NVL72,并正在生产环境中部署 GB300 NVL72。微软、CoreWeave 和 OCI 正将 GB300 NVL72 应用于低延迟、长上下文场景,例如智能体编程和编程助手。通过降低 token 成本,GB300 NVL72 使得能够跨大规模代码库进行实时推理的新型应用成为可能。
CoreWeave 工程高级副总裁 Chen Goldberg 表示:“随着推理成为 AI 生产的核心环节,长上下文性能和 token 效率变得至关重要。Grace Blackwell NVL72 直接解决了这一挑战。基于 GB200 的成功经验,CoreWeave 的 AI 云(包括 CKS 和 SUNK)旨在将 GB300 系统的性能提升转化为可预测的性能表现和成本效率。这将为大规模运行工作负载的客户带来更优的 token 效益和更实用的推理能力。”
NVIDIA Vera Rubin NVL72 将带来新一代性能表现
随着 NVIDIA Blackwell 系统的大规模部署,持续的软件优化将不断释放已部署设备的性能与成本优势。
展望未来,由六款全新芯片构建的 AI 超级计算机NVIDIA Rubin 平台将实现新一轮性能飞跃。对于 MoE 推理,其每兆瓦吞吐量较 Blackwell 提升高达 10 倍,百万 token 成本仅为后者的 1/10。面对新一代前沿 AI 模型,Rubin 仅需 Blackwell 1/4 的 GPU 即可完成大型 MoE 模型的训练。
好文章,需要你的鼓励
据《华尔街日报》报道,在马斯克针对OpenAI的诉讼失败后,OpenAI正加速推进IPO计划。CEO萨姆·奥特曼希望公司最快于今年9月上市,目前已与高盛、摩根士丹利合作,并可能在数日或数周内秘密提交上市申请。与此同时,马斯克旗下SpaceX的IPO文件也预计近期公开。两家公司的上市竞争,标志着马斯克与奥特曼的博弈从法庭转移至资本市场。
KAIST团队提出策略助推方法,通过强制分配解题方向引导AI探索多样思路,仅用八份样本就超越了消耗八倍资源的传统方法。
调查显示,51%的专业人士认为AI生成的低质量内容(即"workslop")正在降低生产效率,45%的人因此对职场使用AI更加谨慎。这类内容表面精致却缺乏准确性和实质价值。专家建议两步应对:一是重塑AI生产力思维,推行"AI先行、人工复核"的工作模式;二是保持持续投入,深入掌握AI工具的有效用法。企业领导者强调,真正从AI中受益需要坚持与学习,而非浅尝辄止。
要理解这项研究,先得明白现在的AI是怎么"画"图的。 可以把AI生成图片的过程想象成一个特殊的厨房。当AI要学会画图时,它不会像人类画家那样一笔一画地描绘,而是采用一种叫做"自回归"的方式——简单说就是"一个食材接一个食材地添加"。但问题在于,AI厨房处理的"食材"不是真实的图像像素,而是一种被压缩过的"标准化食材包"。 这个压缩过程,叫做"离散分词",由一个叫"分词器"(tokenizer)的设备完成。打个比方,分词器就像一台高级的食材切片机,它把一整张图片切成很多小块,然后给每一小块贴上一个"编号标签",对应到一本"标签字典"(也就是研究者口中的"码本")里的某个条目。比如,标签001可能代表"蓝天的一小块",标签002代表"绿草的一小块"。 这种做法的好处是大幅简化了AI的工作量——它不用记住几百万个像素,只需要记住一串编号就行了。这就是为什么如今像Chameleon、Emu3这些大名鼎鼎的多模态AI模型都用这种技术。 但问题也恰恰出在这里。当切片机以16倍的压缩率工作时(也就是说原本256个像素被压缩成1个标签),很多细节就被无情地丢弃了。蓝天少一些云彩、草地少几根草尖,人眼几乎看不出来。可一旦切到了文字或人脸,灾难就发生了——一个英文字母"e"和"c"的差别可能就在那么几个像素,一张脸上眉眼的位置稍微挪一挪,整个人就变了样。 研究团队发现,认知科学研究早就指出,人类的视线会不自觉地被文字和人脸吸引,对这两类内容的细节扭曲特别敏感。换句话说,AI画其他东西糊一点没关系,但文字和脸糊了,用户立马就能察觉。 之前的研究者也意识到了这个问题,他们的解决思路通常是"加大切片机的容量"——比如把标签字典从1万6千条扩展到26万条,或者让每张图用更多的标签。但这就像为了切好一根胡萝卜而把整个厨房改造成大型工厂,成本高得离谱,而且效果也不见得好。 清华和微软的团队提出了一个完全不同的思路:与其让切片机变得更大,不如教它学会"看重点"。 二、给切片机装上"火眼金睛"