扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
如果问用户对服务器的基本需求是什么,可能每个用户都会说“不停”,没错,尤其是对于可支持8颗处理器以上的高端服务器而言。
高端服务器承担的应用场景都是核心的数据库、中间件等关键应用场景,计划外停机往往伴随着业务灾难。系统连续运行水平在计算机领域通常称为“可用性”、“RAS”特性(Reliability, Availability and Serviceability)。目前,高端服务器普遍需要提供99.999%的高可用性,也就是每年停机时间不超过5分钟。
“不停”的核心是高可用
“不停”不仅要可靠,更要高可用,也就是对各个层面错误的容忍。高可用是服务器设计研发工作者首先考虑的问题,服务器是一个庞杂的系统,可靠性再强的系统都难免出错,一个能够容忍各类错误的服务器才能称得上是高可用系统。
简单理解,高可用就是隔离故障对系统影响的技术,包括故障的自动化监测、备用部分切换和故障记录分析等,其基本思路是,就是周期性的对服务器不同层面进行检测,在故障影响系统运行之前将其发现,然后将故障部分执行的任务迁移到备用或者同级部分上,并对故障部分进行修复、记录和报警。
高可用也是个力气活
高可用一直被认为是服务器系统高级的特性,此前,大多高可用技术都仅应用于大型机和传统的小型机上,一直是“高大上”代名词,而且高可用技术也一直是各个服务器厂商的核心竞争力之一。
从一个笔者的工作体验来讲,高可用技术都是研发难度最大、复杂度最高的技术类别之一。举一个简单的数字,目前品质最高的工业级电子器件平均无故障时间在10000小时左右,浪潮天梭TS860大约有几万个电子器件,如何保障“不停”是个挑战。这仅是最基本的元器件层面的挑战,此外,还有信号、板卡、BIOS、部件等其他各个层面都要详细考虑。
可用性也是个经验活
高可用需要部分资源闲置作为热备份,因而会造成服务器效率的下降,例如较为常用的硬盘RAID 1技术,两块硬盘同时写入,硬盘空间的利用率仅有原来的50%。为了不过多的损失效率,大部分产品会采用一对N共享热备技术(就是多部件共享一个热备件,例如内存热备通常是三个内存槽位共享一个热备槽位)、互享热备等技术。服务器系统的复杂性决定了热备策略、技术措施的复杂性,每个厂商的高可用技术都体现了各自的理解,凝结着各自工程师的实际经验。即使是相同的高可用技术,各个厂商的具体实现方式方法也不太相同。高可用技术需要厂商在核心技术方面的长时间通入,需要厂商在服务器设计研发方面长期的摸索和积累。
天梭TS860的高可用——体系化
天梭 TS860采用了体系化的可用性技术,在芯片级、链路级、模块级、系统级等四个层面共采用了60余项具体的高可用技术,这些技术包括最底层的双工信号传输,一直到部件级别的热替换,使系统的可用性水平超过99.999%。硬盘、网卡、风扇、电源等模块都支持热插拔,用户可以在系统不停机的情况下,更换这些部件。
相比上一代产品,天梭TS860的传感器数量达到了500个左右,可以及时探测系统各类信息,另外,还增加了Live Error Recovery(LER),eMCA,Machine Check Architecture Recovery(MCA-R)等复杂高可用技术,并且对CPU、内存的onling/offline,PCI-E热插拔等方面进行完善和改进,使系统高可用机制更加完善。
从实际应用看, 服务器运行最大的挑战是不受外界关注的一个基本问题——散热,内部温度过高会使得部件过热,触发宕机,也会影响部件寿命,为服务器运行埋下长期隐患。
天梭 TS860采用了CPU Thermal Throttling技术,CPU一旦超过一定的门限温度,会自动降频降压,以降低自身温度;与此同时BMC通过调整风扇转速,帮助过热的CPU散热。
而且天梭 TS860风道设计上进行了优化,两个独立硬件分区有各自独立的风道,不会相互影响。硬盘和电源的风道也独立出来,整系统风道清晰,流畅,散热性能好,可靠性高。
SMART即Self-Monitoring,Analysis and Reporting Technology,是硬盘自我检测与分析报告技术。SMART技术提供的数据,包括坏道、内部温度等,必须通过硬盘的接口(SCSI、SATA、SAS等)读取,通过这些数据,可以迅速了解硬盘的健康状况。
大部分厂商的服务器产品都是各个硬盘均与RAID卡连接,然后接入服务器系统。这一方式使得服务器无法直接访问硬盘的接口,也就不能读取每个硬盘的SMART数据,无法判断硬盘的健康状态,尤其是作为服务器带外管理核心的BMC,更是无法获得硬盘的任何信息,这个问题一直困扰各大服务器厂商。
天梭 TS860的硬盘背板,采用了智能的硬盘监控芯片,解决了硬盘无法监控的问题。RAID卡具有标准的SGPIO总线,硬盘监控芯片能够通过该总线,获取每一个硬盘的工作状态,并能够将这些状态通过SMBUS发送至BMC,这样硬盘纳入了统一的系统监测和管理,使得天梭TS860的高可用更为体系化,便于制定更好的策略。
高可用技术完善在于细节
高可用技术的成熟往往体现在具体的细节。以最常见的风扇冗余为例,天梭 TS860系统在处理风扇故障过程中,为了减少噪音没有轻易启用冗余风扇,而采用了一套更合理的风扇故障处理技术:当有风扇出现故障时,监控管理系统会立即响应,通过底层硬件实现对系统的局部的降频降压,保证系统不会因为过热而死机,并通过报警的方式提醒用户更换故障风扇。
用户自选的可用性水平
天梭TS860的可用性技术主要以一对多热备为主,但是很多部分也为用户提供了不同的选择,例如电源系统支持双路供电,可提供N+N/N+1等多种冗余方式,用户可以根据业务的关键性采用不同的方案。
近年来,各个行业的用户对于四路以上的高端服务器越发青睐有加,一方面,随着云计算、移动互联、BYOD等新一代信息化应用的发展,用户业务系统的访问压力和数据增长速度都在不断攀升,另一方面,对于一些压力不大或者边缘系统,用户为了简化管理,降低成本,都开始采用虚拟化和云计算技术进行整合。
浪潮是中国最大的八路X86服务器供应商,将会进一步把关键应用主机的高端技术下移到八路至强平台,为客户带去更好的应用价值和体验。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者