机架级计算崛起:AI时代的基础设施新模式

机架规模计算以服务器机架而非单台服务器作为数据中心基础设施的主要单元。该概念早在十多年前就已出现,但在AI时代重新受到关注。相比传统服务器中心方法,机架规模计算能更好地满足大规模工作负载需求,构建更具弹性的基础设施,并优化硬件配置。特别是1MW机架能够提供传统方法无法匹配的集成性能,为AI工作负载提供充足资源和优化处理。

数十年来,服务器一直是数据中心的基本构建单元。部署工作负载需要足够的服务器来支持该负载。基础设施监控、电源管理等也主要在服务器级别进行。

在AI时代,以服务器为尺度的数据中心方法正变得越来越不足。可以说,更好的策略是机架级计算——这个想法并不全新,但也许终于迎来了它的时刻。

什么是机架级计算?

机架级计算是在数据中心内配置硬件的实践,使用服务器机架而不是单个服务器作为IT基础设施的主要单元。

换句话说,当你采用机架级计算时,你的主要目标是确保拥有足够的机架——以及每个机架内计算、内存、存储和网络硬件的最佳组合——来支持给定的工作负载。

这与传统的基础设施策略不同,传统策略以单个服务器为中心。大多数数据中心管理员习惯于思考有多少服务器分配给工作负载,而不是为它们配置了多少机架,这就是为什么通常根据Kubernetes环境包含多少节点来调整其规模,或者使用总服务器数作为总数据中心容量的代理。

在机架级方法下,数据中心的服务器总数不再是焦点。相反,推动基础设施成功的关键因素变成了机架总数和每个机架的配置。

机架级计算在AI时代找到了它的时刻,其中1MW机架提供了传统以服务器为中心的方法无法匹配的集成性能。

采用机架级的好处

乍一看,机架级计算可能看起来像是数据中心基础设施管理的一种非传统方法。毕竟,单个机架内可容纳的服务器总数可能因机架大小而有很大差异。如果机架的计算容量如此可变,为什么要将机架视为数据中心的基本构建块?

部分答案是,服务器实际上也不是衡量基础设施容量的一种非常一致的方式,因为服务器的计算能力可能差异很大。

采用机架级计算的更令人信服的原因是,它能够实现更灵活的数据中心基础设施管理方法。具体来说,以机架为中心的基础设施允许企业:

满足大规模工作负载的需求。现代工作负载通常需要多个服务器——因此从拥有分配给它们的整个机架中受益。

构建更具弹性的基础设施。单个服务器容易出现故障,但整个机架宕机的情况很少见。因此,当你使用机架作为构建块时,你的工作负载本质上更可靠。

优化基础设施配置。专注于机架设计和组件使得为给定工作负载优化每个机架的硬件变得更容易。例如,如果工作负载产生特别高的网络流量,可以用包含高端交换机甚至多个交换机的机架来支持它。

时机终于成熟的解决方案

有趣的是,机架级计算的概念已经存在了十多年。微软在2013年就在推广它,英特尔等供应商多年前就将其作为可组合基础设施策略的一部分加以利用。

当时,机架级计算从未真正完全流行起来。数据中心行业没有转向机架成为基础设施基本构建块的模型。

但支持现代AI的需求催化了对机架级基础设施策略的重新兴趣。例如,在Data Center World 2025上发言时,分析师Jeremie Eliahou Ontiveros指出机架级架构是为AI工作负载配置足够基础设施的解决方案的一部分。

这种方法特别适合AI工作负载。AI工作负载不仅需要大量的计算、内存和(在许多情况下)存储资源,而且当它们运行的基础设施在硬件级别进行优化时,它们的工作效果要好得多。机架级计算可以帮助实现这两个目标。

例如,1MW机架——可以容纳比传统机架高得多的服务器容量——可以帮助确保AI工作负载拥有运行所需的资源。同时,优化机架内各个服务器之间数据移动的机架架构,同时也有助于平衡散热,有助于避免处理瓶颈并优化工作负载性能。

单个服务器配置无法实现可比较的优化,因为最佳地集成这些服务器将更具挑战性。

机架级计算的未来

可以肯定的是,机架级计算有缺点。其中最主要的是,当机架成为主要单元时,它们可能会限制可扩展性,因为配置超过单个机架处理能力的服务器将具有挑战性。然而,如果数据中心转向更高容量的机架——例如,那些能够容纳高达1MW硬件的机架——这种担忧会减少。

因此,随着机架的现代化,预期数据中心架构也会随之现代化,企业转向机架级方法。单个服务器仍然重要,因为不是每个工作负载都需要自己的专用机架。但最关键和最昂贵的工作负载可能会在机架规模上运行。

Q&A

Q1:什么是机架级计算?它与传统方法有什么区别?

A:机架级计算是在数据中心内配置硬件的实践,使用服务器机架而不是单个服务器作为IT基础设施的主要单元。与传统以服务器为中心的策略不同,机架级计算专注于机架总数和每个机架的配置,而不是服务器数量。

Q2:机架级计算为什么在AI时代特别重要?

A:AI工作负载需要大量的计算、内存和存储资源,而且当基础设施在硬件级别进行优化时效果更好。1MW机架可以提供传统以服务器为中心方法无法匹配的集成性能,满足AI工作负载的巨大资源需求。

Q3:采用机架级计算有什么主要优势?

A:机架级计算能够满足大规模工作负载需求,构建更具弹性的基础设施(整个机架宕机很少见),以及优化基础设施配置。专注于机架设计使得为特定工作负载优化硬件变得更容易,比如为高网络流量工作负载配置高端交换机。

来源:DataCenterKnowledge

0赞

好文章,需要你的鼓励

2025

09/16

07:48

分享

点赞

邮件订阅