黄仁勋表示,基础设施提供商在GPU身上投入的每1美元,能够赚取到5倍回报。
英伟达公司CEO黄仁勋正努力平息人们对于Blackwell GPU架构延迟推出,以及AI研发缺乏投资回报率的双重担忧。
黄仁勋在本周三高盛科技大会上发表的演讲中解释道,“市场需求如此旺盛,以至于我们的组件、技术、基础设施及软件交付已经成为相当激动人心的重大事件。因为这将直接影响到他们的收入,直接影响到他们的市场竞争力。这是一份沉重的责任,我们必须将其稳稳担起,我们也正在付出最大的努力。”
此前曾有报道指出,英伟达的下一代Blackwell加速器无法像黄仁勋之前承诺的那样,在2024年下半年顺利出货。这家GPU巨头在上月第二季度的财报电话会议上承认存在制造缺陷,因此不得不更换掩模版,这进一步加剧了市场的悲观情绪。然而在本周三与高盛公司的Toshiya Hari对话时,黄仁勋重申Blackwell芯片已经开始全面投产,并将于今年第四季度开始出货。
这款GPU架构首度亮相于去年春季的英伟达GTC大会上,承诺性能将提高2.5至5倍,内存容量与传输带宽将比其前代H100级设备高出两倍以上。当时英伟达曾信心满满地表示,这些芯片将在今年下半年之内投放市场。
尽管黄仁勋此番明确保证Blackwell将在年内出货,但关于延迟的消息已经令英伟达的股价经验丰富了过山车式的波动。多篇存在争议的报道指出,这家GPU巨头已经收到美国司法部的传票,并面临DPU供应商Xockets提起的专利诉讼,这也让GPU巨头的股价更加混乱。
根据黄仁勋的介绍,市场对于Blackwell产品的需求已经超过了2022年推出的上代Hopper产品(当时ChatGPT尚未正式发布),并成为生成式AI浪潮中的必需品。
黄仁勋还在会上表示,这种对GPU算力的疯狂渴求,也成为令众多客户感到不满的根源。
“每个人都想成为第一,每个人都希望拿到更多设备……这样的需求强度真的非常夸张。”
加速投资回报
黄仁勋还谈到在推动AI热潮的过程中,对于昂贵GPU系统的投资回报担忧究竟有无必要。
从硬件的角度来看,黄仁勋的观点可以归纳为:GPU加速性能的提升速度,要远远超过基础设施建设成本的增幅。
他提到“Spark可能是当今世界上使用最多的数据处理引擎。如果大家也在使用Spark,就会发现在加速器的加持下,其性能实现20倍增长的情况并不罕见。”他同时补充称,就是说即使基础设施的建设成本提升至原本的两倍,也仍然有十倍的效益提升空间。
另据黄仁勋的介绍,这种趋势也延伸到了生成式AI领域。“这方面的回报同样非常可观,因为需求极其旺盛,以至于他们(服务提供商)在GPU身上投入的每1美元,能够赚取到5倍回报。”
然而,正如之前相关报道所指出,基于此类基础设施构建的应用程序及服务本身的投资回报率仍然相当模糊——而且专用AI加速器(包括GPU)的长期实用性也仍然有待商榷。
在谈到AI用例时,黄仁勋则热衷于强调英伟达公司所使用的定制化AI编码助手。“我认为软件工程师们需要手动编写每一行代码的时代已经彻底结束了。”
黄仁勋还强调了生成式AI在计算机图形领域的应用。“我们可以计算一个像素,并据此推断出另外32个像素”,他的说法明显是指英伟达的DLSS技术,其能够使用帧生成的方式提高电子游戏中的显示帧率。
黄仁勋还提到,这些技术对于自动驾驶汽车、机器人技术、数字生物学乃至其他新兴领域的成功同样至关重要。
密集化、垂直整合的数据中心
尽管黄仁勋坚信生成式AI技术的投资回报,足以证明训练及部署相关硬件所带来的极高成本具有合理性,但也承认,智能化水平更高的数据中心设计有助于降低资金投入。
黄仁勋在谈到英伟达模块化集群设计(称为SuperPOD)时指出,“当大家想要建造这样的AI计算系统时,人们总会想到超级集群、基础设施、超级计算机之类的字眼。这样的反应不无道理,毕竟真正运行工作负载的既不是芯片、也不是计算机本身,我们需要的是完整的数据中心。”
黄仁勋解释道,加速计算能够将大量计算压缩到单一系统当中——也正因为如此,他才强调英伟达的方案“取代了成千上万个节点”,避免客户为每个机架支付几百万美元的采购预算。
然而,黄仁勋也提到,将这些密度极高的系统(每机架高达120千瓦)放入传统数据中心时效果并不理想。
他解释道,“这些巨型数据中心效率极低,因为其中充斥着空气,而空气属于热的不良导体。我们想要做的,是把这些规模庞大的50、100甚至200兆瓦数据中心浓缩成一处非常非常小的数据中心。”
更小的数据中心可以采用液冷设计,从而带来总体效率更高的系统冷却效果。
英伟达在推动数据中心现代化方面做出的努力究竟能否成功,仍然还有待观察。但值得注意的是,Blackwell的旗舰型号就采用了液冷设计方案。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。