SmartRack:把刀片的机箱扩展至整个机柜!
刀片服务器在2006年至2010年迎来了自己的快速的发展期,在当时刀片服务器被看作是“融合系统”的不二之选,比如思科的UCS,以及惠普的BladeSystem Matrix,无不是以刀片服务器为主要的计算节点,再配以外置的SAN存储,组合一个高度集成的虚拟化基础设施平台。
这其中,我们看到SAN存储是与刀片服务器兴起的重要保证,因为在当时服务器直连存储(DAS,不管是外部还是内部)被认为是落伍的架构,不利于存储资源的整合与利用,因此不需要(或者说不具备)DAS存储能力的刀片服务器正好与SAN存储相得益彰——集中的计算节点与集中式存储相互搭配。
然而从2010年开始至今,互联网的应用规模拜智能手机的暴发所赐,呈几何级数增长,并带来了庞大的信息处理的需求,这最终反映在了互联网大型数据中心的设备采购上。在这期间,伴随着高速互联与软件定义基础设施(计算、存储、网络)技术的发展,Scale-Out集群化的应用模式日益成熟,再加上高速闪存存储技术的快速进步,传统的DAS存储再次焕发了活力——因为它让应用与数据的距离更近了,从此应用的热数据开始回流至服务器内部,外部存储的地位则逐年降低。与之相对应的,则是刀片服务器的弱点更加明显,即使有专用的存储刀片也于事无补——相信没有一家大型的互联网公司会采用刀片+SAN的方式来做自己的基础架构。所以,可以明确的说,当互联网的IT模式成为主流之时,也就是传统刀片服务器停滞不前,甚至开始衰落的开始。
事实上,刀片服务器也有自己的存储刀片,但相比于传统机架服务器,仍旧明显不如
但是,传统机架服务器的大规模Scale-Out应用也开始让互联网企业感到头疼,即使是多节点设计,在大规模部署速度方面仍然有很大的制约。由此,以机柜为单位快速部署逐渐成为了一个努力的目标,从而有了后来的OCP与天蝎计划。
而在我看来,这其实就是将传统刀片服务器的机箱规模扩展至整个机柜。
浪潮公司最新的刀片服务器,采用I8000w机箱,可在8U的高度内放入20个双路CPU刀片
浪潮SmartRack整机柜服务器(右为前视图,左为后视图),最多可安装32个节点(计算或存储),在节点中间隔开的是集中式的电源模块,而背面则是无接线设计,共安装了27个冷却风扇,从总体上看,与传统的刀片机箱有异曲同工之妙
在上下半区节点之间,是8个2400W的电源模块,形成了4+4的冗余设计
从整体的设计上来看,SmartRack就像一个采用了整机柜设计的刀片服务器,只是这个刀片很大,并且不像传统的刀片服务器大多采用的那种竖向的安装方式,而其高度(厚度)也不是传统的1U的计算单位,就像传统刀片服务器本身也无法用传统的机架尺寸单位来衡量。
虽然,人们都把机柜服务器纳入到高密度服务器的范畴,但我认为这并非是整机柜服务器的核心追求,至少不是从计算密度来说的。比如浪潮SmartRack的计算节点最多是32个,即使采用双节点设计,最多也就是64个节点。而浪潮自己的刀片服务器则可以在42U的机柜里提供100个刀片,有的厂商甚至可以提供128个刀片。因此就计算密度而言,刀片服务器仍然有自己的优势。
SmartRack的2in1计算节点SN6120M4,每个节点配8个DIMM,自带2块SSD(800GB),这种设计像不像一个巨大的计算刀片?
但在单个节点的配置规格(计算容量)以及存储密度上来说,SmartRack则是传统刀片服务器无法比拟的。根据SmartRack的设计规范,单节点最高可提供18块3.5英寸硬盘,按当前主流的4TB容量计算,共计72TB的冷存储容量,一台SmartRack可最高提供近3PB的容量(该存储节点,整机柜可安装40个)。
采用Atom C2750处理器的冷存储节点SN3116M4,最多可提供72TB的容量,可以看作是一个“存储刀片”
高性能存储节点SN6115M4/SN6116M4/SN5115M4,最高可提供13块3.5英寸硬盘
此外,SmartRack还率先提供了整合GPU的计算加速节点,集成了4块NVIDIA TESLA计算加速卡,这样强悍的单节点设计,在传统刀片中肯定是无法看到的。
集成了4块TESLA GPU卡的计算加速节点SN6110G4
综上所述,可以看出,当把刀片机箱的尺寸扩展至机柜的级别,所带来的节点性能的提升、整合与集中化的效果则更为明显,同时也给我们带来了更多的设计可能,让整体的供电、冷却以及管理的效率更高,也让外围支持设备的综合成本更低,这是从服务器设计本身所体现出来的最大好处。根据SmartRack用户的测试数据,其部署密度提高13.8%,功耗降低至少15%,总体拥有成本降低至少12%。
说到此,可能有人会问,为什么当初刀片服务器不一上来就以机柜为单位来设计呢?答案也在于需求与应用场景并不需要这样的集成规模,换句话说,即使当时这样设计了,也没有用武之地。只有在互联网兴起之后,带动了超大规模的信息与数据处理的需求之后,在更大尺度上进行资源的整合才有必要,并在周边软硬件技术的发展推进下,实现了在一个“机箱”内计算、存储与网络的平衡而有效的整合,天蝎/SmartRack也因此应运而生。
配合硬件组件、软件定义与高速互联技术的发展,未来的整机柜服务器将进一步实现CPU、内存、存储等资源的整合,也许哪一天就会出现单纯的“内存刀片”
因此,我们可以认为刀片服务器、整机柜服务器都是时代发展的产物,后者更像是前者必然的 “宿命”,就像硬盘从十几寸的形态慢慢的演化至2.5寸、1.8寸,并向固态盘过渡一样,这都是技术、需求、应用场景升级、变迁的结果,就这一点来讲,整机柜服务器替换刀片服务器,至少对于目前的某些企业来讲,无疑是合理的选择。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。