科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道IBM :如何构建可靠的新一代企业的灾备中心

IBM :如何构建可靠的新一代企业的灾备中心

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

2008年5月15日上午,在北京JW万豪酒店地下一层多功能厅召开了“企业级存储,构建新一代企业级数据中心”——2008 IBM企业信息架构论坛。

作者:张桂林 来源:CNET中国·ZOL 2008年5月19日

关键字: 信息基础架构 企业级 数据中心 服务器 灾备中心 IBM

  • 评论
  • 分享微博
  • 分享邮件

  2008年5月15日上午,在北京JW万豪酒店地下一层多功能厅召开了“企业级存储,构建新一代企业级数据中心”——2008 IBM企业信息架构论坛,参加本次会议的嘉宾有IBM系统与科技事业部存储平台总经理 Andrew Monshaw先生,IBM大中华区副总裁及系统与科技事业部总经理姜锡岫先生,IBM系统与科技事业部大中华区产品部总经理 侯淼先生,IBM系统与科技事业部大中华区存储产品部总经理 朱国良先生,IBM全球存储专家、系统与科技事业部大中华区存储平台客户方案支持总监Guenter Lange先生,本次大会将针对未来信息存储的发展趋势、新一代企业数据中心、信息基础架构等多个层面展开讨论与交流。

  会上,IBM全球科技服务部中国区业务连续和灾难恢复解决方案专员魏威先生进行了如何构建可靠的新一代企业的灾备中心的精彩演讲。  

  IBM全球科技服务部中国区业务连续和灾难恢复解决方案专员魏威先生演讲

  魏威:大家好,我叫魏威,是IBM全球科技服务部中国区业务连续和灾难恢复解决方案专员,下面的时间由我来给大家介绍一下如何构建一个灾备中心,或者业务连续性的服务中心,它实际上本身是数据中心的一种,IBM对于业务连续性方面有没有相应的措施和保障。首先解释两个名词,一个叫做IBM灾难恢复中心,它实际上本身是一个数据中心,数据中心拥有权是IBM的,而客户把自己的服务器也好,自己的业务系统也好都托管给IBM的灾备中心,由IBM进行运维,这样的灾备中心在IBM叫做IBM的灾难恢复中心,在全球IBM一共有154个这样的灾备中心,非常非常多,而在中国目前在中国有四家,在北京、天津、上海和深圳各有相应的灾难恢复中心。

  还有一个名词叫IBM灾难恢复外包服务,IBM灾难恢复外包服务又称IBM灾备外包服务,是指客户将自己的灾备系统托管到IBM的灾备中心,由IBM为客户提供灾备数据中心运维管理,在发生灾难时,IBM为客户提供专业的灾难恢复服务,使客户的业务得以持续运营。IBM灾难恢复外包服务主要有共享模式和专用模式两种服务。今年灾情比较多,也比较严重,这样更需要有一套完整的、可靠的灾难恢复中心。

  我们看看为什么我们需要一个灾备外包的服务,或者客户为什么不自己去建造灾备中心,而把自己的灾备系统托付给IBM,看一看简单的原因。事实上建设一个完整的灾备系统也好或者灾备中心也好,需要有很多方面的考虑、很多方面的步骤,这个模型实际上已经完全地诠释了IBM在建设一个灾备系统或者灾备中心所需要的各个步骤、各个方面。从中我们可以看出其中有一个非常关键的地方就是基础设施这块,客户自己做这块的话成本非常非常高。2007年是房价飞涨的年代,早在2003年也就是非典前的时候,在北京买到一平方米的住宅面积也就花4000、5000差不多,到2007年的时候可能会达到两万、三万甚至更高的价格,如果客户自己建一个灾备中心,势必要拿到一块地皮,现在地皮非常贵,或者自己买房子、机房,机房价格也是非常非常高的,所以拥有的成本会非常高。而且从现在开始,房价并没有涨到顶头,还在飞速发展,我们感觉到现在只是一个暂时的停顿过程,随着中国经济的蓬勃发展,以后的房价肯定会越来越高,这一点毋庸置疑。如果客户自己拥有灾备中心,很可能很多的钱就投入到房子上。

  从另外一个角度来讲,能源也越来越紧缺,全球会因为能源爆发很多冲突甚至战争,我们能源越来越紧缺,电力也越来越紧缺,早在80年代起,我们的数据中心的耗电量并不是我们考虑的问题之一,因为那时候一台服务器只有两、三颗CPU,内存也很少,几兆到几十兆,那时候我们的耗电量非常小,所以耗电量并不惊人,但是如今一台服务器几十颗CPU、上百颗CPU,存储以及磁盘,还有很多机械转动都需要电力,我们就举了一个非常好的例子,在国外有某个大企业一年的用电量相当于斯里兰卡全年的用电量60亿度,非常非常惊人,所以你会发现系统庞大的话,我们的电费以及我们空调开支会占我们很大一块,将近1/3,这是另外一个成本,就是客户自己建设灾备中心的话,这是另外一笔费用。

  再一方面就是人员方面,实际上,灾备中心一点不比我们业务中心或者生产中心简单,因为除了有生产中心一套相应的一模一样、一对一的东西以外,还有很多需要维护的流程、人员。原来我们讲的CS结构非常简单,那个系统非常简单,两台服务器,两个管理员,一个管数据库,一个管网络,两个管理员就够了。现在加上网络、安全体系等等各种各样的产品,需要我们的管理员分门别类的有不同的能力和知识,一个人肯定不能满足这些要求的,我们肯定会招很多很多人,造成运维的团队非常大。每年可能还得培训这些管理员学习相应的知识,这些人一旦培训出来,也变成人才了,也是各个IT公司非常紧缺的人才,会被挖走。所以每年花几十万为员工进行培训,但是很有可能是留不住人才的。各位如果是CIO的话,到时候会感叹“人心散了,队伍不好带了…”,培养出来的人才全部都被挖走。

  我们可以看出,现在对于一个企业来讲,一个CIO建设一个灾备中心会面临着哪些方面的困难?我们总结认为三个方面的困难:第一方面就是巨大的机房费用,我们建设一个机房灾备中心地皮费用非常大,一次性投资就占了很大的费用;第二方面是细水长流的投资,就是每年惊人的能耗和空调支出;第三方面是非常庞大的IT运维团队,每年的培训以及支出,这批人不好留住,流动性比较大。综上所述,如果企业自己负担建设灾备中心的话,实际上困难是非常非常大的。

  魏威: 我们现在建设一个灾备中心的话,是不是我们可以拍脑袋说建设成什么样的就建设成什么样的,并不是。国家有相关的法律法规,各行各业有相关的规定,我们在建设的时候,可以看各行各业以及国标都是怎么说的。首先看一下国家标准,这叫做《重要信息系统灾难恢复指南》,这是原来的原稿,当时是一个指南,《信息系统灾难恢复规范》从2007年11月1号开始指南变成规范升级为国标,不管是外资企业还是自己的公司在中国做生意建设灾备。中国国标阐述了6级灾难恢复体系,主要是靠灾备手段或者是业务系统手段的多少来划分,灾备手段或者保护业务系统能力越强,你的等级就越高,相反,如果保护业务手段非常简陋,你的等级就越低,你们可以简单看看这六个等级是怎么划分的或者怎么规定的。

  第一级,基本支持。一周进行一次全备份,把生产系统不管用什么样的存储和服务器备份出来,把备份的磁带介质运送到场外存放。这是完成了国标第一级标准。

  第二级,凡是拿红字标出来的都是比上一级多出来的部分(见图),我们可以关注红字部分,除了一周一次全备份而且把备份拿到场外存放之外,还要配备相应的部分数据处理设备,还要配备部分网络设备,还要有相应的通讯设备,最重要的是要有相应的作息。如果进行灾难恢复,要有相应的办公区域或者是相应的作息用以灾难恢复,如果完成这个,我们就完成了国标的第二级。

  第三级,同样关注红色部分(见图),原来至少一周做一次全备份,现在要求至少一天做一次全备份,备份的密集程度更高,要求每天多次利用通讯网络将关键数据定时往远端传输,这样势必从生产中心到灾备中心会增加网络,要有备份能力和相应通讯能力。

  第四级,要求更高,第三级之前要求部分数据处理设备,现在要求全部数据处理设备,而且还要在容灾中心要求7×24小时运作,必须配备相应管理人员在里面运维灾备系统和中心。

  第五级,同样关注一下红字部分(见图),多出来将采用远程数据复制技术,将数据实时复制到灾备中心,原来我们都是说定时,一天备几次,两次、三次靠自己定,如果达到国标第五级要求有实时复制技术,包括IBM存储等实时数据技术。还需要具备集中切换能力,发生灾难的话,有能力从生产中心自动切换到灾备中心。

  第六级,零数据丢失和远程集群支持。生产中心是什么样的数据,如果发生灾难的话,在灾备中心一定要保持跟你生产中心同样的数据,不能有一点数据的丢失,这叫零数据丢失。在发生灾难的时候,我们肯定会丢失一部分数据,而丢失的数据,从做容灾系统来讲,叫做RPO,就是你丢失了多长时间的数据,如果允许丢失一个小时的数据,RPO就是小于一个小时,另外一个叫RTO,就是发生灾难以后恢复业务系统花费多长时间,这叫RTO。在国标第六级规定RTO是零,不允许数据丢失,这是目前来讲最高级别。

  下面看看国标,可以把国标当成一把六米长的尺子,并没有规定必须达到哪一级。事实上大家没有从上面看到要达到国标哪一级,只是给你一把尺子。各行各业会根据这把尺子制定相应的规范,我们可以看看各行各业的法律法规,这是有强制效应的,要求你达到国标第几级。走在前端的是金融行业,凡是跟钱打交道的客户,对于法律法规和数据安全性要求非常高。银行业在去年或者前年都相应的由银监会颁布了两个指引和法规,是跟灾备系统相关的,去年股市非常火,证监会也颁布了相应的法律法规,而且保监会在去年年底的时候有一个征求意见稿,但是到了今年年初已经把它作为正式指引发布出来了,大家可以看看。

  像银行业的条款,像《商业银行操作风险管理指引》,把红字部分着重看看(见图),需要有应急和业务连续性方案,就是指我们经常说的容灾的演练、容灾的灾难恢复的整个计划。另外,它是怎么规定一个重大事件的呢?在两个或者两个以上就算重大事件,今年的冰灾绝对是超重大事件,地震肯定是两个以上的数据中心都瘫痪了,这都是超重大事件,如果一个省、一个数据中心的话,不能超过六个小时的中断,如果超过六个小时中断同样要上报银监会,银监会要记录下来。从第25条的第5小条可以看到,银监会规定商业银行必须有灾难恢复和业务连续性方案,灾难恢复计划,还要定期检查全面性。所谓定期检查全面性,IBM有一套完整的灾难恢复计划,如果按照我们那个项目完整去做,肯定能够保证做到灾备系统的全面性。

  魏威: 我们可以看看银行的另外一个指引规定了什么,第29条:省域以下的数据中心(省级直辖市级别),至少要实现数据异地备份和异地保存。大家想想针对国标可以达到第几级?刚才我们都讲了,至少要达到第二级。如果是省域数据中心或者是全国性的数据中心实现的是异地数据的实施、备份,而且像全国数据中心的话,还要实施数据灾备,这对应国标的第五级,要求达到一个是国标的第二级以上,一个是第五级以上。

  从证监会来讲,颁布的法规是非常非常严格的,因为我们大家知道,证券实时交易要求非常强,一天就几个小时的交易时间,而且交易量非常大,最近每天可能都是两千亿人民币的金额。像证监会要求有相应的灾难恢复计划,而且后面非常明确的规定,像第一条规定,要求建设国标第五级,比较高的级别,而且我刚才解释了RPO、RTO什么意思,一个是丢失多长时间的数据,一个是恢复系统需要多长时间,要求非常高,目前达到这种要求非常不容易,如果我们自己做的话,达到这个要求是非常困难的。

  从保险业来讲,今年刚发布的指引,从3月21日开始执行,它实际上着重提出了自建灾备中心,还有一个共建灾备中心,还有一个是外包,今天着重谈的是IBM的外包服务。保监会针对国标提出了自己相应的法规要求,比如第一类是最高级、最严格的业务系统,要求达到国标第四级的标准;第二类要求国标第三级标准;第三类业务系统可能是最不重要的系统,要求达到国标第二级就可以了。这是针对国标保监会一一对应的业务系统要达到什么样的要求。对于建设的机房应该有相应保密措施、保密资质,要求我们做完灾备以后,要求每年至少要演练一次,而且每三年至少要重新审计一次,至少每三年我们要重新地去做一下灾备咨询的项目,做一下相应的服务。

  以上看了国标六米的尺子,看了相应各行各业针对自己的特点制定自己是几米高,定下了相应的法律法规。我们看一下IBM外包服务是否能够满足国标的等级。(见图),这是IBM在中国四个灾备中心的外景图,北京、天津、上海、深圳,北京在亦庄经济技术开发区,大家有兴趣可以跟相应的销售联系,可以到实地进行参观。天津市在天津经济技术开发区,离即将开通的北京到天津的高速铁路非常近。上海的灾备中心也远离市区,上海的灾备中心建设的非常高级,,安全设施做的非常好,周边的设施非常完全,没有不稳定的因素。深圳在南山区。

  我们可以看看拍摄的实景图,虽然不能亲临现场,可以看看机房实景图,这是运维中心的走廊,会经过严格安保措施以后才可以进去。机房走线非常规矩,因为我们给客户做了很多项目,很多客户对于机房维护不是特别理想,因为经常会有新的需求,一进机房就像蜘蛛网,在IBM运维中心没有这样的情况。这是监控中心,由7×24小时轮班监控人员进行系统维护和管理。如果断电或者出现毛病都由UPS电源电池进行后备电源处理,如果停电的时候,UPS撑不住还有柴油发电机组进行临时供电。这是IBM灾备中心硬件条件,是相当不错的。

  软件方面,所谓软服务,为客户提供两种模式的服务,一种模式叫做共享式灾备服务,另一种是灾备式灾备服务,共享式灾备服务就是很多客户把自己的灾备系统托付给IBM灾备中心,IBM灾备中心有相应的服务器、磁盘阵列、网络设备、交换机等等,这些与其他客户共享,如果你托付给我们选用共享模式是共享的,如果发生灾难,我们要根据客户的优先级,根据相应的情况判断给谁用灾备中心。我们在签合同的时候、考虑这种客户的时候尽量把大家分散开,而不是在一个区域,一旦发生灾难大家都抢资源会出现问题。共享式的灾备服务我们是经过严格评测的。

  专用模式不存在这个问题,专用模式客户把灾备系统、服务器、存储、网络设备托付给IBM,放到灾备中心去,同样租用里面设备,比如IBM i系列服务器,x系列服务器和p系列的,可以租用,也可以自带,放到灾备中心,由IBM统一运维。如果选择共享模式,平时是怎么运维的呢?(见图),前面是客户分享中心,如果客户选用共享模式,不到IBM灾备中心,除了年度演练测试,其他情况不去,只是在本地运维这些方面的东西,定时备份出磁带、光盘、磁盘,只要有备份介质就没问题,把这些备份介质拉到专门保护数据的地方存放(场外存放),现在有很多这样的公司,在亦庄就有相应的存放磁带或者专门保护存储介质的公司。

  IBM的工作人员负责IBM灾备中心日常运维,这是共享模式,如果我们发生灾难了,第一,IBM客户灾备项目经理打电话通知IBM灾备项目经理,IBM灾备项目经理会紧急把IBM灾备项目小组调集在一起开会,同时客户这边也应该赶快去通知存放磁带、存放灾备介质的地方赶快取带子,IBM进行紧急配置,因为这些是共享设备,平时并不是用作灾难恢复用的,一旦发生灾难需要简单处理或者非常快速的处理、配置,配置好灾备中心。客户把磁带备份介质运到灾备中心区,客户进驻灾备中心进行恢复,恢复完以后可以对外提供服务,这是一个共享模式的服务。

  我们可以看看,共享模式的服务可以达到国标第几级?在中国做生意必须满足中国的国标,第一级是基本支持,基本可以达到,磁带运到场外存放;第二级备用场地支持也可以达到;第三级要求定时批量往灾备中心存数据是达不到的。如果高于国标第二级可以选用下面这个专用模式,日常运维这是客户的生产中心,会定时或者实时将数据往IBM灾备中心传数据,因为IBM可以提供给大家共享设备或者租用设备,或者是客户自己的设备直接放到IBM灾备中心。客户监控团队会通过IBM给大家开放的端口访问IBM灾备中心进行运维服务,IBM运维团队对整个灾备中心进行运维,这是平时的运维模式。如果发生灾难,怎么办?同样客户打电话给IBM灾备中心项目经理,IBM灾备中心项目经理紧急召开相应的会议,但不需要进行过多的配置,因为这些东西是客户专属模式、专用模式,客户直接进入灾备中心、进行恢复服务,直接对外提供业务访问。如果选择专用业务模式,业务恢复时间RTO是非常非常短的。

  同样看看这个模式到底适合国标几级,从第一级到第六级专用模式都可以达到和满足,但是为什么第一级和第二级是灰色呢?因为如果你只想达到国标第二级就够了,建议您选择共享模式,因为造价低、实惠,模式也方便。如果高于第二级,没办法就要选择专用模式了,这是对于中国国标来讲,我们提供相应外包服务达到国标任何一个级别。我们可以看看灾难恢复中心对于客户来讲有什么好处,或者我们的优势在哪,我们可以看到,我们的场地品质是相当高的,而且安全性相当好,相对于周边的生活环境非常便利,北京是在地震带,但是北京南边来讲是地震比较少的地方,亦庄中心就是在南边。全球55个国家有154个灾备中心,中国占4个灾备中心。另外,全球有13万的技术专业的队伍为大家做全球化的服务,具备支持同时多家发生灾害的能力,全球支持体系,130000专业人员分布于164国家或地区,像9·11有很多客户系统是通过IBM灾备中心进行恢复的,我们现在每年超过四万次的演练,如果做过灾备项目或者以前听说过、参与灾备项目服务,会知道每一次演练会多么复杂的过程,四万次的灾备演练是什么规模,大家可以想象一下。

  后面是我们相应的联系方式,如果大家有需要的话,可以与我们的会务组联系。我的讲话到此结束,谢谢大家。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章