A1 Digital 正在测试一项用于高能耗 AI 服务器的液冷技术,据称该技术可节省 50% 的制冷能耗,完全无需使用空调系统。
A1 Digital 旗下的云服务和托管提供商 Exoscale 正在其维也纳数据中心测试由奥地利公司 Diggers 开发的直接液冷 (DLC) 系统的概念验证 (POC)。
该系统将服务器刀片置于密封的冷箱中,不存在空气进出,并通过带有微通道的冷板直接连接到 GPU 和 CPU 上进行液体循环。据介绍,这种设置消除了冷通道的需求,因此声称可以节省 50% 的能源成本,实现约 1.05 的 PUE。
PUE(电源使用效率)是衡量数据中心基础设施能源效率的指标,理想值为 1.0。根据 Uptime Institute 的数据,行业平均水平约为 1.56。
Exoscale 首席运营官 Antoine Coetsier 告诉我们,数据中心的设备正变得越来越密集且耗能更高,而电力成本也在上升。同时,像他们这样的公司面临着可持续发展的压力,特别是在欧盟《企业可持续发展报告指令》(CSRD) 现已生效的情况下。
"每一代产品,不仅是 GPU,现在连 CPU 也在消耗更多能源。目前这一代仅 CPU 就需要 350 瓦特。我们从三月底开始部署的设备将达到每个 CPU 500 瓦特。"
这推动了制冷技术的演进,从对整个数据机房进行空调制冷,发展到服务器机架之间的冷通道,现在则采用这种类似冰箱隔热的冷箱内液冷方案。
Diggers CEO Martin Schechtner 表示这是该公司第四代设计技术。
"这是一种冷箱方案,服务器机架内部没有空气进出。只有水的进出、电源供应和网络连接,这使得操作变得最简单,"他告诉我们。
此前,Diggers 销售浸没式制冷解决方案,但那通常使用矿物油,这意味着"你要在极其重要的基础设施中引入大量易燃负载,"Schechtner 说道,同时维护也更加困难。
采用冷箱内服务器刀片的 DLC 技术,"我们基本上达到了与浸没式制冷相同的技术效果,但无需使用矿物油,也没有维护问题。一切都易于更换。你可以更换内存和硬盘,不会有油滴落的问题,"他解释道。
Diggers 的冷板采用铝而非铜制成,以避免水造成的腐蚀问题。该公司声称其微通道设计能够以提高热传递效率的方式分配液体。一块冷板可以冷却两个 GPU,每侧各一个。在 POC 中,每个冷箱包含四个垂直安装的刀片。
"所有设备都被封装在内,管道很少。虽然还是有一些管道,但比你之前见过的任何方案,甚至是大型 OEM 的方案都要少得多,这也是系统的优势之一,"Coetsier 说。
维也纳数据中心正在试验的部署总共包含八个箱体,计算能力约为 80 千瓦。
"规模不大因为这是 POC。我们将逐步扩大规模,但它有潜力容纳目前最强大的 GPU,"Coetsier 告诉我们。
根据 Schechtner 的说法,从冷箱流出的水温通常在 50°C,"这个温度水平可以直接在现场使用,或者输送到区域供热网络,让热泵能够高效工作。"
Coetsier 表示,如果 POC 进展顺利,Exoscale 计划将这项制冷技术推广到维也纳数据中心以外的其他地点,并应用于不同的 CPU 和 GPU 组合,"因为我们是云服务提供商,我们的工作是提供客户需要并愿意购买的各种服务。"
好文章,需要你的鼓励
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。