数十年来,服务器一直是数据中心的基本构建单元。部署工作负载需要足够的服务器来支持该负载。基础设施监控、电源管理等也主要在服务器级别进行。
在AI时代,以服务器为尺度的数据中心方法正变得越来越不足。可以说,更好的策略是机架级计算——这个想法并不全新,但也许终于迎来了它的时刻。
什么是机架级计算?
机架级计算是在数据中心内配置硬件的实践,使用服务器机架而不是单个服务器作为IT基础设施的主要单元。
换句话说,当你采用机架级计算时,你的主要目标是确保拥有足够的机架——以及每个机架内计算、内存、存储和网络硬件的最佳组合——来支持给定的工作负载。
这与传统的基础设施策略不同,传统策略以单个服务器为中心。大多数数据中心管理员习惯于思考有多少服务器分配给工作负载,而不是为它们配置了多少机架,这就是为什么通常根据Kubernetes环境包含多少节点来调整其规模,或者使用总服务器数作为总数据中心容量的代理。
在机架级方法下,数据中心的服务器总数不再是焦点。相反,推动基础设施成功的关键因素变成了机架总数和每个机架的配置。
机架级计算在AI时代找到了它的时刻,其中1MW机架提供了传统以服务器为中心的方法无法匹配的集成性能。
采用机架级的好处
乍一看,机架级计算可能看起来像是数据中心基础设施管理的一种非传统方法。毕竟,单个机架内可容纳的服务器总数可能因机架大小而有很大差异。如果机架的计算容量如此可变,为什么要将机架视为数据中心的基本构建块?
部分答案是,服务器实际上也不是衡量基础设施容量的一种非常一致的方式,因为服务器的计算能力可能差异很大。
采用机架级计算的更令人信服的原因是,它能够实现更灵活的数据中心基础设施管理方法。具体来说,以机架为中心的基础设施允许企业:
满足大规模工作负载的需求。现代工作负载通常需要多个服务器——因此从拥有分配给它们的整个机架中受益。
构建更具弹性的基础设施。单个服务器容易出现故障,但整个机架宕机的情况很少见。因此,当你使用机架作为构建块时,你的工作负载本质上更可靠。
优化基础设施配置。专注于机架设计和组件使得为给定工作负载优化每个机架的硬件变得更容易。例如,如果工作负载产生特别高的网络流量,可以用包含高端交换机甚至多个交换机的机架来支持它。
时机终于成熟的解决方案
有趣的是,机架级计算的概念已经存在了十多年。微软在2013年就在推广它,英特尔等供应商多年前就将其作为可组合基础设施策略的一部分加以利用。
当时,机架级计算从未真正完全流行起来。数据中心行业没有转向机架成为基础设施基本构建块的模型。
但支持现代AI的需求催化了对机架级基础设施策略的重新兴趣。例如,在Data Center World 2025上发言时,分析师Jeremie Eliahou Ontiveros指出机架级架构是为AI工作负载配置足够基础设施的解决方案的一部分。
这种方法特别适合AI工作负载。AI工作负载不仅需要大量的计算、内存和(在许多情况下)存储资源,而且当它们运行的基础设施在硬件级别进行优化时,它们的工作效果要好得多。机架级计算可以帮助实现这两个目标。
例如,1MW机架——可以容纳比传统机架高得多的服务器容量——可以帮助确保AI工作负载拥有运行所需的资源。同时,优化机架内各个服务器之间数据移动的机架架构,同时也有助于平衡散热,有助于避免处理瓶颈并优化工作负载性能。
单个服务器配置无法实现可比较的优化,因为最佳地集成这些服务器将更具挑战性。
机架级计算的未来
可以肯定的是,机架级计算有缺点。其中最主要的是,当机架成为主要单元时,它们可能会限制可扩展性,因为配置超过单个机架处理能力的服务器将具有挑战性。然而,如果数据中心转向更高容量的机架——例如,那些能够容纳高达1MW硬件的机架——这种担忧会减少。
因此,随着机架的现代化,预期数据中心架构也会随之现代化,企业转向机架级方法。单个服务器仍然重要,因为不是每个工作负载都需要自己的专用机架。但最关键和最昂贵的工作负载可能会在机架规模上运行。
Q&A
Q1:什么是机架级计算?它与传统方法有什么区别?
A:机架级计算是在数据中心内配置硬件的实践,使用服务器机架而不是单个服务器作为IT基础设施的主要单元。与传统以服务器为中心的策略不同,机架级计算专注于机架总数和每个机架的配置,而不是服务器数量。
Q2:机架级计算为什么在AI时代特别重要?
A:AI工作负载需要大量的计算、内存和存储资源,而且当基础设施在硬件级别进行优化时效果更好。1MW机架可以提供传统以服务器为中心方法无法匹配的集成性能,满足AI工作负载的巨大资源需求。
Q3:采用机架级计算有什么主要优势?
A:机架级计算能够满足大规模工作负载需求,构建更具弹性的基础设施(整个机架宕机很少见),以及优化基础设施配置。专注于机架设计使得为特定工作负载优化硬件变得更容易,比如为高网络流量工作负载配置高端交换机。
好文章,需要你的鼓励
Luminary Cloud宣布完成7200万美元B轮融资,专注开发"物理AI"技术。该公司云原生平台可将仿真速度提升100倍,利用物理信息模型实时预测汽车、飞机等产品性能。公司推出针对特定行业的预训练模型,包括与本田合作的汽车设计模型和与Otto航空合作的飞机开发模型。融资由西门子风投领投,将用于扩大研发团队和市场销售。
香港中文大学联合上海AI实验室推出Dispider系统,首次实现AI视频"边看边聊"能力。通过创新的三分式架构设计,将感知、决策、反应功能独立分离,让AI能像人类一样在观看视频过程中进行实时交流,在StreamingBench测试中显著超越现有系统,为教育、娱乐、医疗、安防等领域的视频AI应用开启新可能。
伦敦量子动态科技公司宣布交付业界首台采用传统半导体制造工艺的量子计算机。该系统已安装在英国国家量子计算中心,使用标准化300毫米硅晶圆,是首台自旋量子比特计算机。系统采用CMOS技术,占地约三个19英寸服务器机架,具备数据中心友好特性。公司开发的可扩展瓦片架构支持大规模生产,未来可扩展至每个量子处理单元数百万量子比特,为商业化应用奠定基础。
Atla公司发布Selene Mini,这是一个仅有80亿参数的AI评估模型,却在11个基准测试中全面超越GPT-4o-mini。通过精心的数据筛选和创新训练策略,该模型不仅能准确评判文本质量,还能在医疗、金融等专业领域表现出色。研究团队将模型完全开源,为AI评估技术的普及和发展做出贡献。