最新 SemiAnalysis InferenceX 数据显示，NVIDIA Blackwell Ultra 在代理式 AI 领域可实现高达 50 倍的性能提升，成本降低至 1/35

包括微软、CoreWeave 和 Oracle Cloud Infrastructure（OCI）在内的云服务提供商，正大规模部署 NVIDIA GB300 NVL72 系统，用于低延迟、长上下文场景，例如智能体编程和编程助手等应用

最新 SemiAnalysis InferenceX 数据显示，NVIDIA Blackwell Ultra 在代理式 AI 领域可实现高达 50 倍的性能提升，成本降低至 1/35 NVIDIA Blackwell 平台已被 Baseten、DeepInfra、Fireworks AI 和 Together AI 等领先推理提供商广泛采用，将每 token 成本降至原来的 1/10。如今，NVIDIA Blackwell Ultra 平台正将这一势头进一步推向代理式 AI 领域。

AI 智能体和编程助手正推动软件编程相关 AI 查询量呈现爆发式增长：据 OpenRouter 发布的推理现状报告显示，此类查询占比去年已从 11% 上升至约 50%。此类应用需要低延迟以维持多步骤工作流中的实时响应能力，同时在跨整个代码库进行推理时需支持长上下文处理。

最新 SemiAnalysis InferenceX 性能数据显示，NVIDIA 的软件优化与新一代 Blackwell Ultra 平台的结合在两方面均实现了突破性进展。NVIDIA GB300 NVL72 系统每兆瓦可提供高达 50 倍的吞吐量，每 token 成本降低至 NVIDIA Hopper 平台的 1/35。

通过跨芯片、系统架构和软件领域的创新，NVIDIA 的极致协同设计加速了从智能体编程到交互式编程助手等各类 AI 工作负载的性能提升，同时实现了大规模部署的成本优化。

最新 SemiAnalysis InferenceX 数据显示，NVIDIA Blackwell Ultra 在代理式 AI 领域可实现高达 50 倍的性能提升，成本降低至 1/35

GB300 NVL72 为低延迟工作负载提供高达 50 倍的性能提升

Signal65 的一份近期分析表明，采用极致软硬件协同设计的 NVIDIA GB200 NVL72 芯片，相较于 NVIDIA Hopper 平台，其每瓦可处理的 token 数提升超过10倍，每 token 成本降至其 1/10。随着底层技术栈的持续优化，这些显著的性能提升空间仍在不断扩大。

NVIDIA TensorRT-LLM、NVIDIA Dynamo、Mooncake 和 SGLang 团队持续进行的优化，显著提升了 Blackwell NVL72 在所有延迟目标下混合专家模型（MoE）推理的吞吐量。例如，NVIDIA TensorRT-LLM 库的改进使 GB200 在低延迟工作负载上的性能较四个月前提升高达 5 倍。

更高性能的 GPU 内核经过针对效率和低延迟进行的优化，充分释放了 Blackwell 架构的强大计算能力，显著提升吞吐量。
NVIDIA NVLink 对称内存支持 GPU 间直接内存访问，实现更高效的数据通信。
程序化依赖启动（PDL）通过在前一个内核完成前启动下一个内核的准备阶段，最小化空闲时间。

基于这些软件进步，搭载 Blackwell Ultra GPU 的 GB300 NVL72 将每兆瓦吞吐量提升至 Hopper 平台的 50 倍。

这种性能提升转化为经济效益上的优势，与 Hopper 平台相比，NVIDIA GB300 在整个延迟范围内都可降低成本。最显著的降幅出现在低延迟场景，即智能体应用运行的领域：每百万 token 的成本是 Hopper 平台的 1/35。

最新 SemiAnalysis InferenceX 数据显示，NVIDIA Blackwell Ultra 在代理式 AI 领域可实现高达 50 倍的性能提升，成本降低至 1/35

NVIDIA GB300 NVL72 及协同设计的软件栈（包括 NVIDIA Dynamo 和 TensorRT-LLM）相比 NVIDIA Hopper 平台，实现了每 token 成本降低至 1/35。

对于智能体编程和交互式助手这类工作负载，在多步骤工作流中每毫秒的延迟都会累积放大。这种持续的软件优化与新一代硬件的结合，使 AI 平台能够将实时交互体验扩展至更多用户。

GB300 NVL72 为长上下文工作负载提供卓越的经济效益

虽然 GB200 NVL72 和 GB300 NVL72 都能高效实现超低延迟，但 GB300 NVL72 在长上下文场景中的优势尤为突出。对于输入 128,000 token 、输出 8,000 token 的工作负载（例如跨代码库推理的 AI 编程助手），GB300 NVL72 的每 token 成本降至 GB200 NVL72 的 2/3。

最新 SemiAnalysis InferenceX 数据显示，NVIDIA Blackwell Ultra 在代理式 AI 领域可实现高达 50 倍的性能提升，成本降低至 1/35

NVIDIA GB300 NVL72 专为低延迟、长上下文工作负载而设计。

随着智能体读取更多代码，上下文逐渐增长。这使其能更深入理解代码库，但也需要更强大的计算能力。Blackwell Ultra 的 NVFP4 计算性能提升 1.5 倍，注意力处理速度提升 2 倍，使智能体能够高效理解整个代码库。

为代理式 AI 打造的基础设施

领先的云服务提供商和 AI 创新者已大规模部署 NVIDIA GB200 NVL72，并正在生产环境中部署 GB300 NVL72。微软、CoreWeave 和 OCI 正将 GB300 NVL72 应用于低延迟、长上下文场景，例如智能体编程和编程助手。通过降低 token 成本，GB300 NVL72 使得能够跨大规模代码库进行实时推理的新型应用成为可能。

CoreWeave 工程高级副总裁 Chen Goldberg 表示：“随着推理成为 AI 生产的核心环节，长上下文性能和 token 效率变得至关重要。Grace Blackwell NVL72 直接解决了这一挑战。基于 GB200 的成功经验，CoreWeave 的 AI 云（包括 CKS 和 SUNK）旨在将 GB300 系统的性能提升转化为可预测的性能表现和成本效率。这将为大规模运行工作负载的客户带来更优的 token 效益和更实用的推理能力。”

NVIDIA Vera Rubin NVL72 将带来新一代性能表现

随着 NVIDIA Blackwell 系统的大规模部署，持续的软件优化将不断释放已部署设备的性能与成本优势。

展望未来，由六款全新芯片构建的 AI 超级计算机NVIDIA Rubin 平台将实现新一轮性能飞跃。对于 MoE 推理，其每兆瓦吞吐量较 Blackwell 提升高达 10 倍，百万 token 成本仅为后者的 1/10。面对新一代前沿 AI 模型，Rubin 仅需 Blackwell 1/4 的 GPU 即可完成大型 MoE 模型的训练。

来源：业界供稿

0赞

好文章，需要你的鼓励

人工智能

IPO上市

商业竞争

2026-05-22

OpenAI加速推进IPO，或于9月上市

据《华尔街日报》报道，在马斯克针对OpenAI的诉讼失败后，OpenAI正加速推进IPO计划。CEO萨姆·奥特曼希望公司最快于今年9月上市，目前已与高盛、摩根士丹利合作，并可能在数日或数周内秘密提交上市申请。与此同时，马斯克旗下SpaceX的IPO文件也预计近期公开。两家公司的上市竞争，标志着马斯克与奥特曼的博弈从法庭转移至资本市场。

人工智能

强化学习

策略引导探索

2026-05-22

当探索撞上天花板：KAIST团队教会AI“换个思路想想“的聪明办法

KAIST团队提出策略助推方法，通过强制分配解题方向引导AI探索多样思路，仅用八份样本就超越了消耗八倍资源的传统方法。

人工智能

生成式AI

AI生产力优化

2026-05-22

51%专业人士称AI“工作垃圾“降低生产力——两步解决方案

调查显示，51%的专业人士认为AI生成的低质量内容（即"workslop"）正在降低生产效率，45%的人因此对职场使用AI更加谨慎。这类内容表面精致却缺乏准确性和实质价值。专家建议两步应对：一是重塑AI生产力思维，推行"AI先行、人工复核"的工作模式；二是保持持续投入，深入掌握AI工具的有效用法。企业领导者强调，真正从AI中受益需要坚持与学习，而非浅尝辄止。

研究团队的核心想法用一句话概括就是：在训练这台切片机的时候

专门告诉它"文字和脸是重要的

必须切好"。要理解这个改动有多巧妙

得先看看以前的切片机是怎么训练的。传统的训练方法会用三种"考核标准"来评价切片机的表现。第一种叫"重建损失"

2026-05-22

当一个AI画师终于学会写字和画脸：清华大学与微软联手破解图像生成的“老大难“

要理解这项研究，先得明白现在的AI是怎么"画"图的。可以把AI生成图片的过程想象成一个特殊的厨房。当AI要学会画图时，它不会像人类画家那样一笔一画地描绘，而是采用一种叫做"自回归"的方式——简单说就是"一个食材接一个食材地添加"。但问题在于，AI厨房处理的"食材"不是真实的图像像素，而是一种被压缩过的"标准化食材包"。这个压缩过程，叫做"离散分词"，由一个叫"分词器"（tokenizer）的设备完成。打个比方，分词器就像一台高级的食材切片机，它把一整张图片切成很多小块，然后给每一小块贴上一个"编号标签"，对应到一本"标签字典"（也就是研究者口中的"码本"）里的某个条目。比如，标签001可能代表"蓝天的一小块"，标签002代表"绿草的一小块"。这种做法的好处是大幅简化了AI的工作量——它不用记住几百万个像素，只需要记住一串编号就行了。这就是为什么如今像Chameleon、Emu3这些大名鼎鼎的多模态AI模型都用这种技术。但问题也恰恰出在这里。当切片机以16倍的压缩率工作时（也就是说原本256个像素被压缩成1个标签），很多细节就被无情地丢弃了。蓝天少一些云彩、草地少几根草尖，人眼几乎看不出来。可一旦切到了文字或人脸，灾难就发生了——一个英文字母"e"和"c"的差别可能就在那么几个像素，一张脸上眉眼的位置稍微挪一挪，整个人就变了样。研究团队发现，认知科学研究早就指出，人类的视线会不自觉地被文字和人脸吸引，对这两类内容的细节扭曲特别敏感。换句话说，AI画其他东西糊一点没关系，但文字和脸糊了，用户立马就能察觉。之前的研究者也意识到了这个问题，他们的解决思路通常是"加大切片机的容量"——比如把标签字典从1万6千条扩展到26万条，或者让每张图用更多的标签。但这就像为了切好一根胡萝卜而把整个厨房改造成大型工厂，成本高得离谱，而且效果也不见得好。清华和微软的团队提出了一个完全不同的思路：与其让切片机变得更大，不如教它学会"看重点"。二、给切片机装上"火眼金睛"

最新 SemiAnalysis InferenceX 数据显示，NVIDIA Blackwell Ultra 在代理式 AI 领域可实现高达 50 倍的性能提升，成本降低至 1/35

来源：业界供稿

2026

02/26

13:58

分享

点赞

初创公司融资4300万美元打造船舶"蜂群智能"网络

OpenAI加速推进IPO，或于9月上市

51%专业人士称AI"工作垃圾"降低生产力——两步解决方案

微软宣布：Teams"共聚模式"将于6月底正式退出历史舞台

Selector推出多云网络可观测性平台，填补混合云可见性空白

Riverbed为Aternity平台推出全面自主AI能力升级

AI落地深水区的技术账本：软件质量治理如何破解工程化瓶颈

Google Health 5.0 正式推出，安卓端新增数据统计小组件

奥迪A2 e-tron入门级电动车将为品牌注入新活力

周中绿色优惠：Juiced Scrambler电动自行车、Lectric XPress2及多款储能产品特惠来袭

NAMUGA机器人视觉业务向"头部"延伸，加速布局高端机器人解决方案

AMD Silo AI与博洛尼亚大学携手开展空间AI合作，聚焦机器人与自动驾驶领域

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: