黄仁勋表示,基础设施提供商在GPU身上投入的每1美元,能够赚取到5倍回报。
英伟达公司CEO黄仁勋正努力平息人们对于Blackwell GPU架构延迟推出,以及AI研发缺乏投资回报率的双重担忧。
黄仁勋在本周三高盛科技大会上发表的演讲中解释道,“市场需求如此旺盛,以至于我们的组件、技术、基础设施及软件交付已经成为相当激动人心的重大事件。因为这将直接影响到他们的收入,直接影响到他们的市场竞争力。这是一份沉重的责任,我们必须将其稳稳担起,我们也正在付出最大的努力。”
此前曾有报道指出,英伟达的下一代Blackwell加速器无法像黄仁勋之前承诺的那样,在2024年下半年顺利出货。这家GPU巨头在上月第二季度的财报电话会议上承认存在制造缺陷,因此不得不更换掩模版,这进一步加剧了市场的悲观情绪。然而在本周三与高盛公司的Toshiya Hari对话时,黄仁勋重申Blackwell芯片已经开始全面投产,并将于今年第四季度开始出货。
这款GPU架构首度亮相于去年春季的英伟达GTC大会上,承诺性能将提高2.5至5倍,内存容量与传输带宽将比其前代H100级设备高出两倍以上。当时英伟达曾信心满满地表示,这些芯片将在今年下半年之内投放市场。
尽管黄仁勋此番明确保证Blackwell将在年内出货,但关于延迟的消息已经令英伟达的股价经验丰富了过山车式的波动。多篇存在争议的报道指出,这家GPU巨头已经收到美国司法部的传票,并面临DPU供应商Xockets提起的专利诉讼,这也让GPU巨头的股价更加混乱。
根据黄仁勋的介绍,市场对于Blackwell产品的需求已经超过了2022年推出的上代Hopper产品(当时ChatGPT尚未正式发布),并成为生成式AI浪潮中的必需品。
黄仁勋还在会上表示,这种对GPU算力的疯狂渴求,也成为令众多客户感到不满的根源。
“每个人都想成为第一,每个人都希望拿到更多设备……这样的需求强度真的非常夸张。”
加速投资回报
黄仁勋还谈到在推动AI热潮的过程中,对于昂贵GPU系统的投资回报担忧究竟有无必要。
从硬件的角度来看,黄仁勋的观点可以归纳为:GPU加速性能的提升速度,要远远超过基础设施建设成本的增幅。
他提到“Spark可能是当今世界上使用最多的数据处理引擎。如果大家也在使用Spark,就会发现在加速器的加持下,其性能实现20倍增长的情况并不罕见。”他同时补充称,就是说即使基础设施的建设成本提升至原本的两倍,也仍然有十倍的效益提升空间。
另据黄仁勋的介绍,这种趋势也延伸到了生成式AI领域。“这方面的回报同样非常可观,因为需求极其旺盛,以至于他们(服务提供商)在GPU身上投入的每1美元,能够赚取到5倍回报。”
然而,正如之前相关报道所指出,基于此类基础设施构建的应用程序及服务本身的投资回报率仍然相当模糊——而且专用AI加速器(包括GPU)的长期实用性也仍然有待商榷。
在谈到AI用例时,黄仁勋则热衷于强调英伟达公司所使用的定制化AI编码助手。“我认为软件工程师们需要手动编写每一行代码的时代已经彻底结束了。”
黄仁勋还强调了生成式AI在计算机图形领域的应用。“我们可以计算一个像素,并据此推断出另外32个像素”,他的说法明显是指英伟达的DLSS技术,其能够使用帧生成的方式提高电子游戏中的显示帧率。
黄仁勋还提到,这些技术对于自动驾驶汽车、机器人技术、数字生物学乃至其他新兴领域的成功同样至关重要。
密集化、垂直整合的数据中心
尽管黄仁勋坚信生成式AI技术的投资回报,足以证明训练及部署相关硬件所带来的极高成本具有合理性,但也承认,智能化水平更高的数据中心设计有助于降低资金投入。
黄仁勋在谈到英伟达模块化集群设计(称为SuperPOD)时指出,“当大家想要建造这样的AI计算系统时,人们总会想到超级集群、基础设施、超级计算机之类的字眼。这样的反应不无道理,毕竟真正运行工作负载的既不是芯片、也不是计算机本身,我们需要的是完整的数据中心。”
黄仁勋解释道,加速计算能够将大量计算压缩到单一系统当中——也正因为如此,他才强调英伟达的方案“取代了成千上万个节点”,避免客户为每个机架支付几百万美元的采购预算。
然而,黄仁勋也提到,将这些密度极高的系统(每机架高达120千瓦)放入传统数据中心时效果并不理想。
他解释道,“这些巨型数据中心效率极低,因为其中充斥着空气,而空气属于热的不良导体。我们想要做的,是把这些规模庞大的50、100甚至200兆瓦数据中心浓缩成一处非常非常小的数据中心。”
更小的数据中心可以采用液冷设计,从而带来总体效率更高的系统冷却效果。
英伟达在推动数据中心现代化方面做出的努力究竟能否成功,仍然还有待观察。但值得注意的是,Blackwell的旗舰型号就采用了液冷设计方案。
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。