2025年数据中心芯片领域最热门发展趋势

2025年对数据中心硬件而言是关键一年,运营商面临激增的AI工作负载、能效要求和安全挑战。高性能AI加速器推动计算密度达到前所未有的水平,新的冷却和互连技术旨在管理这些工作负载带来的热量和带宽压力。微软推出微流体冷却技术,性能比传统冷板提升三倍;英伟达发布Blackwell Ultra和Vera Rubin超级芯片;英特尔推出Xeon 6系列;思科8223路由系统解决超大规模AI网络挑战;谷歌Willow量子芯片展示量子优势。随着2025年结束,硬件选择将越来越多地定义AI驱动数据中心的性能和可持续性。

今年对于数据中心硬件来说是至关重要的一年,运营商面临着大语言模型工作负载激增、能效需求和不断演进的安全挑战。

虽然云平台和软件经常占据头条,但服务器芯片、加速器和网络设备的创新正在悄然重塑现代数据中心的基础。从GPU和TPU到新兴的数据处理单元(DPU),高性能AI加速器推动了前所未有的计算密度,而新的冷却和互连技术旨在管理这些工作负载产生的热量和带宽压力。

领先厂商推出了对性能、效率和部署策略具有直接影响的突破性技术。微软的微流体冷却通道相比传统冷板提升了三倍性能,英伟达的Blackwell Ultra和Vera Rubin超级芯片将AI推理和推理能力推向新高度,英特尔的Xeon 6升级版为企业工作负载扩展了计算选择。

同时,思科的8223路由系统和P200芯片解决了超大规模AI的网络挑战,谷歌的Willow量子芯片展示了可验证的量子优势,暗示着数据中心计算的下一个前沿。整个市场中,AMD和谷歌继续在入门级和专用处理器方面创新,强调效率、专业化和可扩展性。

随着2025年的结束,硬件选择以及运营商如何整合这些技术,将越来越多地定义AI驱动数据中心的性能和可持续性。

2025年数据中心硬件变革及其重要性

数据中心硬件正在经历快速转型,运营商面临着不断增长的AI工作负载、日益加强的可持续性压力和不断增长的安全担忧。虽然经常被软件和云创新所掩盖,但硬件进步正在重塑现代数据中心的运营方式。

一个主要驱动因素是对AI加速器硬件的投资,这在2025年激增,因为组织竞相支持大规模训练和推理。虽然一旦AI实验降温,长期需求可能会趋于稳定,但加速器在短期内将占据更大的部署份额。与此同时,数据处理单元在多年缓慢采用后继续获得关注。这些专用芯片从CPU卸载网络和基础设施任务,释放计算资源并改善AI密集环境的性能。

微软推出突破性"微流体"芯片内部冷却技术

9月,微软推出了突破性的"微流体"冷却技术,将液体填充通道直接嵌入AI芯片中,显著改善散热并可能重塑数据中心设计。该公司表示,与瑞士初创公司Corintis共同开发的片上冷却系统将GPU温度降低65%,性能比传统冷板提升三倍,实现更密集、更高性能的硅片。

受叶脉等自然结构启发,蚀刻通道直接向热源输送液体,解决了AI加速器功耗增加带来的日益严重的热挑战。微软高管表示,微流体技术可以降低运营成本、减少能耗并缓解电网压力,使其成为未来数据中心效率的关键指标。

GPU重新利用策略从沉没成本到现金流

高性能GPU是昂贵的投资,许多组织在AI训练项目结束或新硬件升级到来后难以证明支出的合理性。最直接的选择是转售GPU,强劲的二手市场中,企业通常可以收回原购买价格的60%-80%。公司还可以将二手组件捆绑成完整的GPU服务器,使其成为对买家更有吸引力的交钥匙解决方案。

对于内部重复使用,最初部署用于训练的GPU可以重新分配到AI推理,这需要稳定的长期计算。一些组织可能还利用较旧的GPU进行加密货币挖矿,并行处理能力在该领域仍能提供回报。另一个创收途径是提供GPU即服务,按需向外部客户出租计算资源。

英特尔发布新Xeon 6系列 数据中心芯片竞争升级

2月,英特尔扩展了其Xeon 6处理器产品线,推出新的性能核心(P核心)芯片,面向AI、虚拟化、数据库和其他计算密集型企业工作负载。Xeon 6700/6500P系列提供比前一代约1.4倍的性能,完成了英特尔的双层Xeon 6系列,包括用于最大性能的P核心处理器和用于节能云环境的E核心处理器。

这次发布正值AMD凭借第五代Epyc 9005系列继续在服务器市场对英特尔施压。分析师表示,AMD的快速增长正在放缓,而Xeon 6将帮助英特尔在日益激烈的数据中心芯片竞赛中捍卫其传统企业强势地位。

思科推出升级版数据中心路由系统和AI芯片

10月,思科推出了新的8223路由系统和Silicon One P200芯片,旨在通过提升速度、效率和长距离连接来帮助数据中心管理日益密集的AI工作负载。8223提供51.2 Tbps以太网固定路由器,而P200实现了超过3 exabits每秒的互连带宽。它们共同支持"跨规模"架构,允许AI集群跨越数百英里的多个数据中心。

分析师表示,思科的深缓冲设计是关键区别因素,通过吸收流量激增在网络故障期间提供韧性,与英伟达的低缓冲理念形成对比。思科还强调功效,声称新系统比前几代消耗65%更少的能源。

谷歌量子突破标志着向实际应用迈出"重要一步"

10月,谷歌宣布了一个重大的量子计算里程碑,声称其Willow量子芯片可以以比领先古典超级计算机快13000倍的速度运行可验证算法。发表在《自然》杂志上的研究标志着首次展示的"可验证量子优势",使用谷歌的Quantum Echoes算法来建模复杂系统,如分子、磁体甚至黑洞。

这一突破加速了对数据中心实际量子应用的期望,可能有益于机器学习、材料科学和可持续性等领域,同时也引发了未来网络安全担忧。谷歌CEO皮查伊表示,公司乐观地认为实用的量子工作负载将在五年内出现。

GTC 2025:英伟达发布下一代AI"超级芯片"

在GTC 2025上,英伟达CEO黄仁勋公布了下一代AI"超级芯片"和数据中心技术的积极多年路线图。新的Blackwell Ultra芯片于2025年底推出,FP4推理性能提升1.5倍,内存更多,带宽是GB200的两倍。计划于2026年推出的后续Vera Rubin平台预计性能是Blackwell Ultra的3.3倍,由88个定制ARM CPU和两个新的Rubin GPU提供支持。2027年发货的Rubin Ultra预计将GPU数量翻倍,每机架提供巨大的15 exaflops。

英特尔数据中心重置?新领导层发出"重大"转变信号

9月,英特尔CEO谭蜀华启动了一次重大领导层改组,旨在在多年疲弱表现后重置公司的数据中心战略。最重要的举措是聘请前Arm工程执行副总裁Kevork Kechichian来领导英特尔的独立数据中心集团。分析师表示,这一任命标志着向更注重解决方案的全栈方法的转变,类似于Arm的演进,因为英特尔寻求重新夺回在CPU方面输给AMD、在GPU方面输给英伟达的阵地。

什么是TPU?张量处理单元指南

谷歌的张量处理单元是专门为加速AI训练和推理而构建的定制ASIC,使其成为谷歌自己的AI工作负载和谷歌云服务的核心。TPU于2015年推出,截至2025年已是第七代(Ironwood),通过针对深度学习和强化学习优化的大规模矩阵运算处理数据,这是当今大语言模型和智能体AI的支柱。

与起源于图形并广泛销售的GPU不同,TPU是专有的,通常不可购买。大多数客户只能通过谷歌云的TPU实例访问它们。Edge TPU是通过Coral销售的低功耗变体,是唯一的例外。

AMD为中小企业推出新服务器CPU

5月,AMD推出了Epyc 4005系列,这是其第五代基于Zen 5的服务器处理器的入门级产品,面向中小企业和托管服务提供商。新芯片提供6到16个核心,远少于旗舰192核心Epyc 9000系列,但具有更低的功耗、AM5插座支持和针对小型组织定制的定价。

Q&A

Q1:微软的微流体冷却技术是什么?有什么优势?

A:微软的微流体冷却技术是将液体填充通道直接嵌入AI芯片中的突破性散热方案。受叶脉等自然结构启发,蚀刻通道直接向热源输送液体,可将GPU温度降低65%,性能比传统冷板提升三倍,能够降低运营成本、减少能耗并缓解电网压力。

Q2:英伟达Blackwell Ultra和Vera Rubin芯片有什么区别?

A:Blackwell Ultra于2025年底推出,FP4推理性能提升1.5倍,内存更多,带宽是GB200的两倍。而Vera Rubin计划2026年推出,预计性能是Blackwell Ultra的3.3倍,由88个定制ARM CPU和两个新的Rubin GPU提供支持,代表了更大的性能跃升。

Q3:谷歌TPU与GPU有什么不同?

A:TPU是谷歌专门为AI训练和推理设计的定制ASIC,通过大规模矩阵运算优化深度学习,而GPU起源于图形处理并广泛销售。TPU是专有的通常不可购买,客户主要通过谷歌云TPU实例访问,而GPU可以在市场上购买。

来源:DataCenterKnowledge

0赞

好文章,需要你的鼓励

2025

12/15

08:06

分享

点赞

邮件订阅