科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道如何在灾难发生后迅速恢复服务器运行

如何在灾难发生后迅速恢复服务器运行

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

当2003年5月4日F4龙卷风袭击了位于田纳西州杰克逊的Aeneas互联网和电话公司的时候,这家公司的系统被龙卷风刮的凌乱不堪并且抛在了大街上。备份磁带在暴风雨袭击4天之后仍然不能恢复。

来源:论坛 2009年9月10日

关键字: 数据中心 服务器

  • 评论
  • 分享微博
  • 分享邮件

  当2003年5月4日F4龙卷风袭击了位于田纳西州杰克逊的Aeneas互联网和电话公司的时候,这家公司的系统被龙卷风刮的凌乱不堪并且抛在了大街上。备份磁带在暴风雨袭击4天之后仍然不能恢复。然而,由于Aeneas有一个灾难恢复计划,这家公司所有的数千个客户在中断72小时之后都要恢复服务。不过,Aeneas似乎对于这个规定是一个例外。

  PTS数据中心解决方案公司总裁Pete Sacco说,真正准备应付灾难的中小企业还不到20%。他们也许会说他们做了准备。这是一个漂亮的口号。如果老板询问,数据中心管理员将有一个“计划”。但是,在灾难袭来的时候,这个计划就崩溃了。

  在IT领域,保护你的服务器是非常重要的。当数据中心运行受到威胁或者停止运行并且服务器必须要尽快恢复运行的时候,你的选择是什么呢?

  根据等级容错

  服务器机房在发生灾难性事件的时候有三种基本的容错模式:热容错、闻容错和冷容错。热容错包含一个远程站点,能够在转换之后立即接管主数据中心。这个备份的站点储备着服务器、存储、通讯、备份能力等数据中心日常工作所需要的一切东西。还有一个连接到只要站点定期进行同步的安全的广域网连接。热站点服务器与主站点服务器并行运行,因此,当发生容错时,几乎不会出现关机时间。然而,热站点的供电和维护都是非常昂贵的。

  温容错有热容错站点的许多物理设备,但是,不是拥有全部设备。温容错站点有服务器机房转换所需要的全部硬件。然而,这些服务器不是每天24小时运行。因此,在下达容错指令的时候,一个温容错站点开始运行需要几分钟至几个小时的时间。企业也许喜欢与场地出租提供商签订合同作为保持一个热容错站点或者温容错站点的最节省成本的方式。此外,只要有硬件和房地产的消费,温容错设置仍然包括许多开销。

  冷容错是通过利用分支机构托管的非生产系统等现有的资源作为“权宜之计”的省钱的方法。当一家企业实施冷容错方案时,最新的备份数据必须要转送到冷容错站点,这比发送信息的站点要延迟1至2天,除非这个机构把那个分支机构作为自己的安全备份目标。不过,即使当前的数据在冷容错站点,现有的服务器一般都需要迁移自己当前的应用程序或者关闭这些应用程序以便为数据中心的应用程序让路。而且,因为这个分支机构的站点是一个备份的站点,其服务器很可能没有数据中心的服务器那样强大。如果容错时间太长,就可能引起问题。

  Integrity Computing公司总裁、企业顾问Ted Udelson说,采用服务器容错措施,你将有一个恢复时间目标和一个恢复点目标。你需要多长时间回复,你需要在哪一个点上恢复,意味着必须要达到的恢复水平。这将决定你将有一个热容错、温容错还是一个冷容错,以及为此计划的开销。

  Udelson说,如果你的机构没有合适的分支机构位置,与另一家公司签署一个互惠合同可以用于冷容错策略。他列举了一个非盈利贸易协会客户成功地利用与另一家公司签署的互惠合同的例子。如果发生灾难,每一个组织都可以利用对方的设施,将会的到6个办公室和足够的机架式服务器空间以便运行三个或者四个重要任务的服务器。这个机构每天都在这些重要服务器上进行备份,每一个月进行一次全面恢复。你可以把这种做法当作“不冷不热的容错”。

  更换设备的时间

  当发生故障的时候,你要立即更换你的服务器。但是,由于兼容性的原因,IT部门对于硬件组件要非常谨慎,甚至要强制规定具体的芯片和固件版本或者关键的组件。考虑到计算变化的速度,要能够保证使用兼容的系统进行更换也许要求厂商在合同期内储备某些额外数量的备份服务器。你必须要向厂商支付费用以保证这些储备,但是,支付的费用没有在你自己的库存中保持这些备份的设备那样昂贵。如果厂商是在本地,你可以规定更换的服务器必须要做几个小时之内提供给你的站点。你还可以要求在一旦在远程站点进行容错时优先通宵发货。

  还要注意这样的事实:你在灾难发生时联系关键人员的能力是决定你的服务器恢复速度有多快的主要因素之一。这不仅包括内部人员,而且还包括在恢复你的服务器运行中发挥关键作用的外部厂商。

  Forrester Research主要分析师Stephanie Balaouras说,企业要有一个需要联络的关键人员的手机号码表。在这组人员中,将有一个人负责灾难恢复。在这个计划中通常要有一个启动规定。系统需要离线几分钟或者几个小时。在这一点上,经过与需要提醒的人员进行一系列沟通之后,然后是一系列恢复步骤。例如,第一步,打电话、你的容错站点是谁、然后告诉他们你要来。第二步,给你的备份提供商打电话,让他们发出你的备份数据。

  如果大火在半夜摧毁了你的数据中心,你需要一家厂商具有每周7天每天24小时提供服务的能力。他们将在卡车上装载替换的服务器,早上第一件事就是给你运过去。你的厂商还应该拥有无懈可击的隐私最佳做法跟踪记录。在发送灾难之后,你的工作人员很可能不够用并且需要帮助,特别是在较小的企业中。

  好的厂商能够帮助IT部门让容错操作顺利地运行。但是,这可能需要处理你的数据。客户服务器厂商Amax信息技术公司产品营销经理James Huang指出,政府机构是非常严格的,从来不允许数据离开他们的网站或者由没有经过批准的外部机构处理。如果这适合你的恢复计划,你需要在灾难发生之前选择和批准少量的外部机构。这会在你的灾难恢复时间方面有很大的区别。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章