SmartRack:把刀片的机箱扩展至整个机柜!
刀片服务器在2006年至2010年迎来了自己的快速的发展期,在当时刀片服务器被看作是“融合系统”的不二之选,比如思科的UCS,以及惠普的BladeSystem Matrix,无不是以刀片服务器为主要的计算节点,再配以外置的SAN存储,组合一个高度集成的虚拟化基础设施平台。
这其中,我们看到SAN存储是与刀片服务器兴起的重要保证,因为在当时服务器直连存储(DAS,不管是外部还是内部)被认为是落伍的架构,不利于存储资源的整合与利用,因此不需要(或者说不具备)DAS存储能力的刀片服务器正好与SAN存储相得益彰——集中的计算节点与集中式存储相互搭配。
然而从2010年开始至今,互联网的应用规模拜智能手机的暴发所赐,呈几何级数增长,并带来了庞大的信息处理的需求,这最终反映在了互联网大型数据中心的设备采购上。在这期间,伴随着高速互联与软件定义基础设施(计算、存储、网络)技术的发展,Scale-Out集群化的应用模式日益成熟,再加上高速闪存存储技术的快速进步,传统的DAS存储再次焕发了活力——因为它让应用与数据的距离更近了,从此应用的热数据开始回流至服务器内部,外部存储的地位则逐年降低。与之相对应的,则是刀片服务器的弱点更加明显,即使有专用的存储刀片也于事无补——相信没有一家大型的互联网公司会采用刀片+SAN的方式来做自己的基础架构。所以,可以明确的说,当互联网的IT模式成为主流之时,也就是传统刀片服务器停滞不前,甚至开始衰落的开始。
事实上,刀片服务器也有自己的存储刀片,但相比于传统机架服务器,仍旧明显不如
但是,传统机架服务器的大规模Scale-Out应用也开始让互联网企业感到头疼,即使是多节点设计,在大规模部署速度方面仍然有很大的制约。由此,以机柜为单位快速部署逐渐成为了一个努力的目标,从而有了后来的OCP与天蝎计划。
而在我看来,这其实就是将传统刀片服务器的机箱规模扩展至整个机柜。
浪潮公司最新的刀片服务器,采用I8000w机箱,可在8U的高度内放入20个双路CPU刀片
浪潮SmartRack整机柜服务器(右为前视图,左为后视图),最多可安装32个节点(计算或存储),在节点中间隔开的是集中式的电源模块,而背面则是无接线设计,共安装了27个冷却风扇,从总体上看,与传统的刀片机箱有异曲同工之妙
在上下半区节点之间,是8个2400W的电源模块,形成了4+4的冗余设计
从整体的设计上来看,SmartRack就像一个采用了整机柜设计的刀片服务器,只是这个刀片很大,并且不像传统的刀片服务器大多采用的那种竖向的安装方式,而其高度(厚度)也不是传统的1U的计算单位,就像传统刀片服务器本身也无法用传统的机架尺寸单位来衡量。
虽然,人们都把机柜服务器纳入到高密度服务器的范畴,但我认为这并非是整机柜服务器的核心追求,至少不是从计算密度来说的。比如浪潮SmartRack的计算节点最多是32个,即使采用双节点设计,最多也就是64个节点。而浪潮自己的刀片服务器则可以在42U的机柜里提供100个刀片,有的厂商甚至可以提供128个刀片。因此就计算密度而言,刀片服务器仍然有自己的优势。
SmartRack的2in1计算节点SN6120M4,每个节点配8个DIMM,自带2块SSD(800GB),这种设计像不像一个巨大的计算刀片?
但在单个节点的配置规格(计算容量)以及存储密度上来说,SmartRack则是传统刀片服务器无法比拟的。根据SmartRack的设计规范,单节点最高可提供18块3.5英寸硬盘,按当前主流的4TB容量计算,共计72TB的冷存储容量,一台SmartRack可最高提供近3PB的容量(该存储节点,整机柜可安装40个)。
采用Atom C2750处理器的冷存储节点SN3116M4,最多可提供72TB的容量,可以看作是一个“存储刀片”
高性能存储节点SN6115M4/SN6116M4/SN5115M4,最高可提供13块3.5英寸硬盘
此外,SmartRack还率先提供了整合GPU的计算加速节点,集成了4块NVIDIA TESLA计算加速卡,这样强悍的单节点设计,在传统刀片中肯定是无法看到的。
集成了4块TESLA GPU卡的计算加速节点SN6110G4
综上所述,可以看出,当把刀片机箱的尺寸扩展至机柜的级别,所带来的节点性能的提升、整合与集中化的效果则更为明显,同时也给我们带来了更多的设计可能,让整体的供电、冷却以及管理的效率更高,也让外围支持设备的综合成本更低,这是从服务器设计本身所体现出来的最大好处。根据SmartRack用户的测试数据,其部署密度提高13.8%,功耗降低至少15%,总体拥有成本降低至少12%。
说到此,可能有人会问,为什么当初刀片服务器不一上来就以机柜为单位来设计呢?答案也在于需求与应用场景并不需要这样的集成规模,换句话说,即使当时这样设计了,也没有用武之地。只有在互联网兴起之后,带动了超大规模的信息与数据处理的需求之后,在更大尺度上进行资源的整合才有必要,并在周边软硬件技术的发展推进下,实现了在一个“机箱”内计算、存储与网络的平衡而有效的整合,天蝎/SmartRack也因此应运而生。
配合硬件组件、软件定义与高速互联技术的发展,未来的整机柜服务器将进一步实现CPU、内存、存储等资源的整合,也许哪一天就会出现单纯的“内存刀片”
因此,我们可以认为刀片服务器、整机柜服务器都是时代发展的产物,后者更像是前者必然的 “宿命”,就像硬盘从十几寸的形态慢慢的演化至2.5寸、1.8寸,并向固态盘过渡一样,这都是技术、需求、应用场景升级、变迁的结果,就这一点来讲,整机柜服务器替换刀片服务器,至少对于目前的某些企业来讲,无疑是合理的选择。
好文章,需要你的鼓励
皮尤研究中心最新分析显示,谷歌搜索结果页面的AI概述功能显著降低了用户对其他网站的点击率。研究发现,没有AI回答的搜索点击率为15%,而有AI概述的搜索点击率降至8%。目前约五分之一的搜索会显示AI概述,问题类搜索中60%会触发AI回答。尽管谷歌声称AI概述不会影响网站流量,但数据表明用户看到AI生成的信息后更容易结束浏览,这可能导致错误信息的传播。
约翰霍普金斯大学研究团队开发了ETTIN模型套件,首次实现了编码器和解码器模型的公平比较。研究发现编码器擅长理解任务,解码器擅长生成任务,跨界训练效果有限。该研究为AI模型选择提供了科学依据,所有资料已开源供学术界使用。
GlobalData研究显示,人工智能驱动的预测性维护正成为电力行业追求高可靠性和成本效益的关键组成部分。该技术结合数据分析、机器学习和实时监控,能够更准确预测设备未来状况,有望降低维护成本30%,提高设备可用性20%。GE Vernova、西门子等公司提供先进解决方案,而数字孪生技术、物联网和边缘计算等新兴技术正进一步提升维护策略的准确性和效率。
博洛尼亚大学团队开发出情感增强的AI系统,通过结合情感分析和文本分类技术,显著提升了新闻文章中主观性表达的识别准确率。该研究覆盖五种语言,在多项国际评测中取得优异成绩,为打击虚假信息和提升媒体素养提供了新工具。