IBM的研究人员表示,一个重要的原因是数据中心内部仍然主要依靠铜线而不是高速的光纤。
IBM杰出工程师John Knickerbocker表示:“我们估计GPU有一半的时间是在空转。”“这白白耗费了大量的能量。”
现在,IBM表示已经在解决这一问题上取得了重大进展。该公司今天发布了一种新的协同封装光学工艺,将光学元件与电子芯片直接集成在一个封装内,从而实现了数据中心设备之间的光速连接。
该公司表示,它已建立并成功测试了基于聚合物光波导的互连器件,这种由聚合物材料制成的结构灵活轻便,可引导光线沿着一条路径前进,并限制光信号,从而在保持信号完整性的同时最大限度地减少损耗。
与电气互连相比,该模块可以减少80%以上的能源需求,同时将数据中心内可连接组件的电缆从目前的一米延长至数百米。
IBM表示,这样做的结果是,人工智能大型语言模型的训练速度可提高五倍,同时,据其估计,每训练一个模型可节省相当于5000个美国家庭一年的耗电量。
电力需求激增
IBM半导体部门总经理兼IBM研究院混合云研究副总裁Mukesh Khare表示:“在生成式人工智能和LLM出现之前,计算需求每20个月翻一番。”“自从LLM出现后,每6个月就会翻一番。”
电力消耗及其相应的碳足迹是人工智能经常被忽略的一个后果。国际能源机构今年早些时候估计,到2026年,处理人工智能和加密货币工作负载的数据中心的用电量可能会翻一番。届时,这个数字将相当于日本的总耗电量。
聚合物光波导技术被广泛应用于电信、数据通信和传感领域,但在数据中心内却从来不够经济实用。原因包括初始成本高、介质易碎、传统系统中铜线占主导地位以及光纤的尺寸。
它们的直径约为250微米,是人类头发宽度的三倍,宽约四分之一毫米。这大大超过了电子电路所需的相应空间。
Khare表示:“虽然业界在制造越来越快的芯片方面取得了重大进展,但这些芯片相互通信的速度却没有跟上。”“这中间存在着几个数量级的差距。”
IBM的研究人员利用PWG技术在芯片边缘排列高密度的光纤束,使芯片能够直接通过聚合物光纤进行通信。这种方法让光纤与连接器之间的公差缩小到半微米或者更小,这被认为是成功的基准。
该公司表示,其新型光学结构使芯片制造商能够在硅光子芯片边缘封装六倍于现在数量的光纤。每根光纤的跨度只有几厘米,每秒可传输太比特级的数据。当为每个光通道传输配置多个波长时,CPO技术可将芯片间的带宽提高80倍之多。
IBM表示,其工艺已将传统光通道的尺寸缩小了80%,测试表明还可能进一步缩小,从而将带宽提高1200%。
共同封装的光学模块已可投入商业使用,并将在IBM位于魁北克布罗蒙的工厂生产。
好文章,需要你的鼓励
科技泡沫并非世界末日,从经济角度看,泡沫是押注过大导致供过于求。AI泡沫问题复杂在于AI软件开发节奏与数据中心建设周期的时间错配。甲骨文关联数据中心获180亿美元信贷,Meta承诺三年内投入6000亿美元基础设施。麦肯锡调查显示企业虽广泛使用AI但规模有限,多数仍持观望态度。微软CEO表示更担心数据中心空间不足而非芯片短缺,电力需求成为新瓶颈。
Salesforce AI研究团队构建了首个大规模多模态文档RAG评测基准UniDoc-Bench,包含7万页真实PDF文档和1600个问答对,覆盖8个领域。研究发现文本图像融合检索策略显著优于单一模态和联合多模态方法,为未来AI文档理解系统提供了"分工合作"的设计思路。
Goodfire.ai研究人员首次发现AI语言模型中记忆和推理功能通过完全独立的神经通路运作。研究显示,移除记忆通路后,模型丧失97%的训练数据复述能力,但逻辑推理能力几乎完全保留。令人意外的是,算术运算与记忆共享神经通路而非推理通路,这可能解释了AI模型在数学方面的困难。该技术未来有望用于移除版权内容或敏感信息而不损害模型核心功能。
腾讯研究团队发现AI训练中"推理火花"现象,揭示低概率词汇如"等等"、"不过"等在维持AI探索能力中的关键作用。团队开发的低概率正则化方法通过精准保护有价值的低概率词汇,在数学推理任务中实现60.17%准确率,比传统方法提升2.66%,为AI创造性思维研究开辟新路径。