如果想提高数据中心的正常运行时间的话,就需要识别并减少最常见的故障源。这可能具有一定的挑战性,因为导致数据中心宕机的原因有很多,通常都不可能一下子解决所有的问题。数据中心运营商需要决定优先处理哪些正常运行时间的威胁。
美国正常运行时间研究所(Uptime Institute)的一份新报告在这方面提供了宝贵的指导。该报告详细介绍了截至 2024 年最常见的数据中心正常运行时间挑战,并对于一些会触发数据中心中断的事件揭示了一些令人惊讶的发现。
数据中心正常运行时间的最大威胁
有些人可能会认为,造成数据中心宕机的最常见原因是网络攻击或极端天气之类的风险,每当这一类风险发生时往往会受到媒体的大量关注。
但实际上,从数据中心正常运行时间的角度来看,这些风险几乎可以忽略不计。导致大多数数据中心故障的核心问题可以分为以下几类。
1、物理系统故障
电源问题是数据中心最常见故障的原因。根据 Uptime Institute 的报告,电源问题占所有数据中心故障的 52%。
另有 19% 的故障源于数据中心的冷却问题,Uptime Institute 将其与电力系统问题分开归类。
这意味着数据中心最大的正常运行时间风险明显是物理系统故障。数据中心运营商希望提高正常运行时间的话,就应该在冗余能源供应或暖通空调系统等解决方案方面进行投资。
2、第三方提供商的挑战
数据中心正常运行时间面临的第二个最常见威胁是 Uptime Institute 称之为有关第三方提供商的问题。这个问题指的是,企业通过外包协议或类似安排与服务提供商签订合同管理数据中心,而服务提供商导致了故障的发生。
至于转为数据中心内部运营能否能缓解这一问题是很难说的。按理说,数据中心外包公司专门从事数据中心的日常运营,其正常运行率可能比那些不以数据中心管理为重点的企业要高。但每个人在这方面的体验可能会有所不同,这取决于企业内部的员工是否擅长管理数据中心。
无论如何,这个数据点提醒我们,如果选择第三方提供商来管理数据中心的运营,那么就应该询问第三方提供商的正常运行时间记录,以确保提供商不会成为数据中心可用性战略中最薄弱的环节。
3、IT 设备故障
IT 系统硬件和软件故障是造成数据中心停机的第三大常见原因,这并不奇怪,因为自从数字时代开始以来,企业就一直在为服务器的崩溃而苦恼。
没有灵丹妙药可以降低这种风险,但还是有一些屡试不爽的策略,例如更多地在更好的监控和可观察性解决方案上投资,创建备份 IT 环境并配备自动故障转移控制,以便在服务器崩溃时,其工作负载可以立即转移到另一台服务器上。
4、网络故障
网络故障与 IT 设备故障类似:二者导致数据中心宕机的比率几乎完全相同,也是企业长期以来一直面临的一类挑战。
与增加 IT 设备正常运行时间一样,提升数据中心网络可靠性的策略包括更好地监控网络和在网络中构建冗余,使得数据包可以在网络部分出现故障时选择替代路径。
更广泛地使用软件定义网络也可以提高网络可靠性,使用软件控制而不是物理网络设备可以更容易识别和缓解故障。
其他数据中心正常运行时间挑战
火灾和信息安全事件也出现在Uptime Institute的数据中心停机原因排行榜上,但也只是勉强上榜,分别仅占所有停机事件的 3% 和 1%。
当然,这并不是说不应该投资防火措施和网络安全保护措施。但在考虑要优先哪些类型的数据中心正常运行时间风险时,数据显示这两项不应该是清单上的唯一行动。
好文章,需要你的鼓励
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面
“未来软件定义汽车”的设想也成为马丁当前运营路线的指导方针,且高度关注数据、零件和资产管理等议题。