数据中心硬件一直在幕后默默运行,为现代计算的关键系统提供动力。虽然它可能不像 AI 突破或绿色能源计划那样引人注目,但硬件领域正在快速发展,当前的创新正在重塑着数据中心的未来运作方式。
从前沿芯片架构到先进存储解决方案和智能管理技术,硬件发展趋势在推动效率和性能提升方面发挥着关键作用。
让我们来探讨将在 2025 年塑造行业的五个关键数据中心硬件议题。
1. AI 加速器硬件投资
如果您近年来关注 AI 对数据中心的影响,您可能已经知道,许多 AI 工作负载在专用 AI 加速器硬件上运行时表现最佳。
因此,当前最重要的数据中心硬件趋势之一就是对 AI 加速器的投资。
我个人认为,随着 AI 技术日趋成熟,企业不再持续启动 AI 实验或概念验证项目,数据中心对 AI 友好型硬件的需求最终将受到限制。但不可否认的是,到 2025 年,AI 加速器将占据数据中心硬件中越来越大的份额。
2. DPU 部署增长
除了专门为 AI 设计的硬件设备外,2025 年还将见证数据中心其他类型硬件优化的增长投资,例如数据处理单元 (DPU)。
DPU 可以处理网络流量管理等原本由 CPU 承担的任务。通过这种方式,DPU 减轻了 CPU 的负载,最终为应用程序提供更大的计算能力。
DPU 已经存在多年,但作为提升资源密集型工作负载(如 AI 训练)性能的方式,它们变得尤为重要。(需要明确的是,DPU 不是 AI 加速器,但可以与 AI 加速器一起使用,使服务器更有效地处理计算密集型任务。)这就是为什么我认为 DPU 即将迎来它们的高光时刻。
3. 先进硬件散热技术的扩展应用
数据中心硬件会产生大量热量。在典型的数据中心中,散热策略几十年来几乎没有改变,主要依靠向服务器吹送空气。
但还有其他方法,包括直接芯片冷却和液体浸没冷却。这些方法的能源效率要高得多,还可能通过减少过热事件来延长硬件寿命。
历史上,由于安装先进冷却系统的高成本,更复杂的数据中心冷却技术的使用受到限制。但随着 AI 和热浪带来越来越大的冷却挑战,先进的硬件冷却解决方案可能在 2025 年及以后对数据中心运营商更具吸引力。
4. 关注硬件安全风险
近期事件凸显了与物理硬件设备相关的安全威胁风险。虽然我怀疑目前没有人打算通过在服务器内放置秘密炸弹来炸毁数据中心,但我确实怀疑有威胁者正在试图做一些事情,比如在服务器上植入恶意固件,作为他们入侵数据中心的后门。
因此,我认为在 2025 年,我们将看到对验证数据中心硬件来源的更多关注,确保在制造和运输过程中没有未经授权的方访问设备。传统的安全控制仍然重要,但我认为硬件安全将在未来一年成为更受关注的领域。
5. 数据中心对 Arm 服务器的兴趣增长
我将以一个可能证明是错误但合理的预测来结束 2025 年数据中心硬件趋势清单:2025 年可能是 Arm 服务器在数据中心中变得普及的一年。
Arm 服务器是使用 Arm 架构而不是 x86 架构的服务器,后者历来是几乎所有服务器使用的芯片设计。Arm 架构可能带来包括更好的能源效率在内的多种好处。
长期以来一直有在数据中心更广泛部署 Arm 芯片的讨论。到目前为止,这种情况尚未发生。但有充分理由相信这种情况可能在 2025 年出现,特别是由于 AI 时代数据中心能源消耗问题日益受到关注。从理论上讲,Arm 服务器可以提高数据中心的能源效率,这不仅限于托管 AI 工作负载的数据中心。
总的来说,我不会押太多赌注认为 2025 年将成为 Arm 服务器之年,主要是因为迁移到 Arm 需要对软件进行的更改超出了大多数组织的准备程度。但引用我年轻时麦当劳的广告语:"嘿,这是可能发生的。"
好文章,需要你的鼓励
这项研究介绍了Ankh3,一种创新的蛋白质语言模型,通过多任务预训练策略显著提升了模型性能。研究者采用两种互补任务:多掩码概率的掩码语言建模和蛋白质序列补全,使模型仅从蛋白质序列就能学到更丰富的表示。实验表明,Ankh3在二级结构预测、荧光预测等下游任务中表现优异,尤其在模型未曾训练过的任务上展现出强大泛化能力,为蛋白质设计和分析开辟了新路径。
法国波尔多大学研究团队开发了一个突破性框架,用于神经退行性痴呆症的差异化诊断。该框架将3D脑部MRI转换为文本报告,并利用强化学习优化的大语言模型进行详细诊断推理。不同于传统"黑箱"方法,这一系统能生成透明、有因果关系的解释,同时保持高诊断准确率。研究显示,通过群组相对策略优化(GRPO)训练的轻量级模型能展现复杂推理行为,包括假设检验和非线性思考,提供与临床决策流程一致的排序诊断结果。
这项研究提出了CLUE框架,首次能够生成自然语言解释来揭示AI事实核查系统不确定性的来源。与现有方法不同,CLUE能识别文本片段间的冲突与一致关系,并解释它们如何影响模型的预测不确定性。实验表明,CLUE生成的解释在三种语言模型和两个事实核查数据集上都更忠实于模型不确定性,用户评价其更有帮助、信息更丰富、冗余更少且逻辑更一致。CLUE不需要微调或架构更改,适用于任何白盒语言模型,为事实核查提供了实用支持。
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。