目前的AI芯片功率往往超过600瓦,因此浸没式冷却有望成为最佳降温方案。
英特尔本周公布了一项耗资7亿美元的可持续发展计划,希望为数据中心探索创新型液冷与浸没式冷却技术。
根据项目规划,英特尔将在自家位于波特兰以西约20英里处的希尔斯伯勒园区建造一处占地20万平方英尺的“大型实验室”,并在这里验证、测试和展示各种专门面向数据中心级高功率芯片的冷却技术。
除了这处实验室,x86巨头还公布了其芯片浸没式冷却系统的开放参考设计。设计方案由英特尔台湾分部开发,芯片巨头希望借此机会吸引更多台湾芯片制造商的加入,最终把成果推广到全球市场。
顾名思义,浸没式冷却是指导将芯片全部浸没至非导电流体(常见流体多为矿物油和某些专用制冷剂)以实现“降温浴”,因此替代较为传统的散热器或散热板。英特尔宣称,在对本已成熟的液冷技术做出进一步创新之后,有望将数据中心的碳排放量降低达45%。
Dell’Oro Group分析师Lucas Beran认为,这代表着数据中心在可持续发展道路上迈出的重要一步。
他解释道,虽然单个组件和服务器也在消耗大量电力,但数据中心总体能耗中超过40%其实是由冷却系统带来的。“最简单的能耗降低方法就是液冷,而浸没式冷却又是液冷中的重要组成部分。”
除了控制能源消耗之外,浸没式冷却还能带来其他附加优势。首先就是用水量的大幅减少,另外液冷的降温效果远优于风冷,而且排出的热液还可用于区域供暖等其他用途。
例如,Bytesnet最近就宣布计划回收其数据中心产生的热量,借此为荷兰格罗宁根地区的数千户家庭供暖。
英特尔最近之所以在数据中心可持续发展方面痛下苦功,原因就是即将推出的CPU、GPU和AI加速器呈现出功耗疯涨的整体趋势。
过去几年以来,大部分此类芯片的热设计功率(TDP)增加了一倍以上。如今,现代CPU架构正迈向300瓦大关,而英特尔、AMD和英伟达打造的GPU与AI芯片则已经来到600瓦上下。
Beran解释道,随着这些系统的全面出货并入驻主流数据中心,液冷、特别是浸没式冷却必将最终普及。这不止是为了提高系统散热效率,同时也是要抵消由此带来的恐怖冷却能耗。
他还强调,数据中心采用浸没式冷却的核心驱动力并不是为了快速降温,而是希望把从低效风冷中节约出来的大部分功率用于进一步增加计算密度。因此,Beran预计大部分数据中心运营商都会在不久的将来采用浸没式冷却方案。
在他看来,“如果从传统机架风冷系统过渡到浸没式冷却系统,消耗的电量会更低。但大多数运营商的想法并不是「我们的算力已经足够,现在只需要提高冷却效率。」”相反,大部分运营商永远都觉得自己所能提供的算力还差得远。
虽然浸没式冷却并不是什么新鲜事物,但Beran认为英特尔推动的这一开放参考设计仍然值得关注。
Beran认为,“英特尔在开发浸没式冷却兼容技术方面发挥着非常重要的作用。凭借着在戴尔、HPE等服务器OEM厂商中的强大影响力,英特尔确实有望改变他们对于产品销售和配套冷却设施的设计思路,进而彻底改变市场观念。”
Beran还提到,“现在英特尔正在设计从起步阶段就充分考虑到液冷,特别是浸没式冷却技术的基础设施产品。”
这种设计思路上的差异非常重要,因为液冷和浸没式冷却所对应的设备外形,与当前风冷数据中心设施将完全不同。而这种不同正是浸没式冷却在普及道路上面临的最大障碍之一。
未知确实会带来恐惧,不少数据中心运营商甚至不知道要如何处理液冷和浸没式冷却硬件中可能出现的各种问题。Beran还提到,这类技术还会改变设备的重量分布,这也是以往风冷系统不大需要考虑的因素。
对于英特尔计划建设的实验室,Beran总结道“这样的大型设施就像是游乐场,我们可以亲身前往、见证新型基础设施的运作方式。建成之后,运营商能够直接体验液冷方案,了解这些系统如何在数据中心环境下稳定运行。这将给整个行业创造出巨大的价值。”
好文章,需要你的鼓励
TAE Technologies在最新一轮投资中获1.5亿美元,累计融资约18亿美元。公司利用 AI 技术优化融合反应堆设计,目标于 2030 年代商业化发电,谷歌等巨头均参与合作。
这项来自KU Leuven、中科大和上海Memory Tensor公司的研究探索了如何利用拼图游戏训练多模态大型语言模型的视觉推理能力。研究发现,现有模型在未经训练时表现近似随机猜测,但通过强化学习能达到近乎完美的准确率并泛化到更复杂的拼图配置。有趣的是,模型能否有效学习与是否包含明确推理过程无关,且复杂推理模式是预先存在而非突然出现的。此外,研究证明强化学习在泛化能力上优于监督微调,挑战了传统的模型训练范式。这些发现不仅揭示了AI视觉理解的机制,还为未来多模态模型研发提供了重要参考。
Nvidia 正在全球数据中心推广 AI 芯片,其最新 Blackwell 架构在 MLPerf 基准测试中获得最高性能,大幅加速下一代 AI 应用的训练与部署。
这项研究提出了LoHoVLA,一种用于长时序实体任务的统一视觉-语言-动作模型,融合了高层任务规划和低层动作控制功能。与传统方法不同,它利用单一预训练视觉语言模型同时生成语言子任务和机器人动作,并采用分层闭环控制机制增强鲁棒性。研究团队构建了包含20个长时序任务的LoHoSet数据集,实验结果显示LoHoVLA在Ravens模拟器中显著优于现有方法,展现出统一架构在实现可泛化实体智能方面的潜力。