科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道X86服务器高可用是个技术活也是个经验活 浅谈浪潮天梭TS860高可用设计

高可用是个技术活也是个经验活 浅谈浪潮天梭TS860高可用设计

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

如果问用户对服务器的基本需求是什么,可能每个用户都会说“不停”,没错,尤其是对于可支持8颗处理器以上的高端服务器而言。

来源:ZDNetserver频道 2015年7月6日

关键字: 浪潮 天梭TS860 高可用性

  • 评论
  • 分享微博
  • 分享邮件

如果问用户对服务器的基本需求是什么,可能每个用户都会说“不停”,没错,尤其是对于可支持8颗处理器以上的高端服务器而言。

高端服务器承担的应用场景都是核心的数据库、中间件等关键应用场景,计划外停机往往伴随着业务灾难。系统连续运行水平在计算机领域通常称为“可用性”、“RAS”特性(Reliability, Availability and Serviceability)。目前,高端服务器普遍需要提供99.999%的高可用性,也就是每年停机时间不超过5分钟。

“不停”的核心是高可用

“不停”不仅要可靠,更要高可用,也就是对各个层面错误的容忍。高可用是服务器设计研发工作者首先考虑的问题,服务器是一个庞杂的系统,可靠性再强的系统都难免出错,一个能够容忍各类错误的服务器才能称得上是高可用系统。

简单理解,高可用就是隔离故障对系统影响的技术,包括故障的自动化监测、备用部分切换和故障记录分析等,其基本思路是,就是周期性的对服务器不同层面进行检测,在故障影响系统运行之前将其发现,然后将故障部分执行的任务迁移到备用或者同级部分上,并对故障部分进行修复、记录和报警。

高可用也是个力气活

高可用一直被认为是服务器系统高级的特性,此前,大多高可用技术都仅应用于大型机和传统的小型机上,一直是“高大上”代名词,而且高可用技术也一直是各个服务器厂商的核心竞争力之一。

从一个笔者的工作体验来讲,高可用技术都是研发难度最大、复杂度最高的技术类别之一。举一个简单的数字,目前品质最高的工业级电子器件平均无故障时间在10000小时左右,浪潮天梭TS860大约有几万个电子器件,如何保障“不停”是个挑战。这仅是最基本的元器件层面的挑战,此外,还有信号、板卡、BIOS、部件等其他各个层面都要详细考虑。

可用性也是个经验活

高可用需要部分资源闲置作为热备份,因而会造成服务器效率的下降,例如较为常用的硬盘RAID 1技术,两块硬盘同时写入,硬盘空间的利用率仅有原来的50%。为了不过多的损失效率,大部分产品会采用一对N共享热备技术(就是多部件共享一个热备件,例如内存热备通常是三个内存槽位共享一个热备槽位)、互享热备等技术。服务器系统的复杂性决定了热备策略、技术措施的复杂性,每个厂商的高可用技术都体现了各自的理解,凝结着各自工程师的实际经验。即使是相同的高可用技术,各个厂商的具体实现方式方法也不太相同。高可用技术需要厂商在核心技术方面的长时间通入,需要厂商在服务器设计研发方面长期的摸索和积累。

天梭TS860的高可用——体系化

天梭 TS860采用了体系化的可用性技术,在芯片级、链路级、模块级、系统级等四个层面共采用了60余项具体的高可用技术,这些技术包括最底层的双工信号传输,一直到部件级别的热替换,使系统的可用性水平超过99.999%。硬盘、网卡、风扇、电源等模块都支持热插拔,用户可以在系统不停机的情况下,更换这些部件。

高可用是个技术活也是个经验活 浅谈浪潮天梭TS860高可用设计浪潮天梭TS860

相比上一代产品,天梭TS860的传感器数量达到了500个左右,可以及时探测系统各类信息,另外,还增加了Live Error Recovery(LER),eMCA,Machine Check Architecture Recovery(MCA-R)等复杂高可用技术,并且对CPU、内存的onling/offline,PCI-E热插拔等方面进行完善和改进,使系统高可用机制更加完善。

高可用是个技术活也是个经验活 浅谈浪潮天梭TS860高可用设计
更好的热容忍,可部署40度高温环境

从实际应用看, 服务器运行最大的挑战是不受外界关注的一个基本问题——散热,内部温度过高会使得部件过热,触发宕机,也会影响部件寿命,为服务器运行埋下长期隐患。

天梭 TS860采用了CPU Thermal Throttling技术,CPU一旦超过一定的门限温度,会自动降频降压,以降低自身温度;与此同时BMC通过调整风扇转速,帮助过热的CPU散热。

高可用是个技术活也是个经验活 浅谈浪潮天梭TS860高可用设计而且天梭 TS860风道设计上进行了优化,两个独立硬件分区有各自独立的风道,不会相互影响。硬盘和电源的风道也独立出来,整系统风道清晰,流畅,散热性能好,可靠性高。

高可用是个技术活也是个经验活 浅谈浪潮天梭TS860高可用设计浪潮版的SMART,更好地硬盘管理

SMART即Self-Monitoring,Analysis and Reporting Technology,是硬盘自我检测与分析报告技术。SMART技术提供的数据,包括坏道、内部温度等,必须通过硬盘的接口(SCSI、SATA、SAS等)读取,通过这些数据,可以迅速了解硬盘的健康状况。

大部分厂商的服务器产品都是各个硬盘均与RAID卡连接,然后接入服务器系统。这一方式使得服务器无法直接访问硬盘的接口,也就不能读取每个硬盘的SMART数据,无法判断硬盘的健康状态,尤其是作为服务器带外管理核心的BMC,更是无法获得硬盘的任何信息,这个问题一直困扰各大服务器厂商。

高可用是个技术活也是个经验活 浅谈浪潮天梭TS860高可用设计

天梭 TS860的硬盘背板,采用了智能的硬盘监控芯片,解决了硬盘无法监控的问题。RAID卡具有标准的SGPIO总线,硬盘监控芯片能够通过该总线,获取每一个硬盘的工作状态,并能够将这些状态通过SMBUS发送至BMC,这样硬盘纳入了统一的系统监测和管理,使得天梭TS860的高可用更为体系化,便于制定更好的策略。

高可用技术完善在于细节

高可用技术的成熟往往体现在具体的细节。以最常见的风扇冗余为例,天梭 TS860系统在处理风扇故障过程中,为了减少噪音没有轻易启用冗余风扇,而采用了一套更合理的风扇故障处理技术:当有风扇出现故障时,监控管理系统会立即响应,通过底层硬件实现对系统的局部的降频降压,保证系统不会因为过热而死机,并通过报警的方式提醒用户更换故障风扇。

用户自选的可用性水平

天梭TS860的可用性技术主要以一对多热备为主,但是很多部分也为用户提供了不同的选择,例如电源系统支持双路供电,可提供N+N/N+1等多种冗余方式,用户可以根据业务的关键性采用不同的方案。

近年来,各个行业的用户对于四路以上的高端服务器越发青睐有加,一方面,随着云计算、移动互联、BYOD等新一代信息化应用的发展,用户业务系统的访问压力和数据增长速度都在不断攀升,另一方面,对于一些压力不大或者边缘系统,用户为了简化管理,降低成本,都开始采用虚拟化和云计算技术进行整合。

浪潮是中国最大的八路X86服务器供应商,将会进一步把关键应用主机的高端技术下移到八路至强平台,为客户带去更好的应用价值和体验。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章