如果想提高数据中心的正常运行时间的话,就需要识别并减少最常见的故障源。这可能具有一定的挑战性,因为导致数据中心宕机的原因有很多,通常都不可能一下子解决所有的问题。数据中心运营商需要决定优先处理哪些正常运行时间的威胁。
美国正常运行时间研究所(Uptime Institute)的一份新报告在这方面提供了宝贵的指导。该报告详细介绍了截至 2024 年最常见的数据中心正常运行时间挑战,并对于一些会触发数据中心中断的事件揭示了一些令人惊讶的发现。
数据中心正常运行时间的最大威胁
有些人可能会认为,造成数据中心宕机的最常见原因是网络攻击或极端天气之类的风险,每当这一类风险发生时往往会受到媒体的大量关注。
但实际上,从数据中心正常运行时间的角度来看,这些风险几乎可以忽略不计。导致大多数数据中心故障的核心问题可以分为以下几类。
1、物理系统故障
电源问题是数据中心最常见故障的原因。根据 Uptime Institute 的报告,电源问题占所有数据中心故障的 52%。
另有 19% 的故障源于数据中心的冷却问题,Uptime Institute 将其与电力系统问题分开归类。
这意味着数据中心最大的正常运行时间风险明显是物理系统故障。数据中心运营商希望提高正常运行时间的话,就应该在冗余能源供应或暖通空调系统等解决方案方面进行投资。
2、第三方提供商的挑战
数据中心正常运行时间面临的第二个最常见威胁是 Uptime Institute 称之为有关第三方提供商的问题。这个问题指的是,企业通过外包协议或类似安排与服务提供商签订合同管理数据中心,而服务提供商导致了故障的发生。
至于转为数据中心内部运营能否能缓解这一问题是很难说的。按理说,数据中心外包公司专门从事数据中心的日常运营,其正常运行率可能比那些不以数据中心管理为重点的企业要高。但每个人在这方面的体验可能会有所不同,这取决于企业内部的员工是否擅长管理数据中心。
无论如何,这个数据点提醒我们,如果选择第三方提供商来管理数据中心的运营,那么就应该询问第三方提供商的正常运行时间记录,以确保提供商不会成为数据中心可用性战略中最薄弱的环节。
3、IT 设备故障
IT 系统硬件和软件故障是造成数据中心停机的第三大常见原因,这并不奇怪,因为自从数字时代开始以来,企业就一直在为服务器的崩溃而苦恼。
没有灵丹妙药可以降低这种风险,但还是有一些屡试不爽的策略,例如更多地在更好的监控和可观察性解决方案上投资,创建备份 IT 环境并配备自动故障转移控制,以便在服务器崩溃时,其工作负载可以立即转移到另一台服务器上。
4、网络故障
网络故障与 IT 设备故障类似:二者导致数据中心宕机的比率几乎完全相同,也是企业长期以来一直面临的一类挑战。
与增加 IT 设备正常运行时间一样,提升数据中心网络可靠性的策略包括更好地监控网络和在网络中构建冗余,使得数据包可以在网络部分出现故障时选择替代路径。
更广泛地使用软件定义网络也可以提高网络可靠性,使用软件控制而不是物理网络设备可以更容易识别和缓解故障。
其他数据中心正常运行时间挑战
火灾和信息安全事件也出现在Uptime Institute的数据中心停机原因排行榜上,但也只是勉强上榜,分别仅占所有停机事件的 3% 和 1%。
当然,这并不是说不应该投资防火措施和网络安全保护措施。但在考虑要优先哪些类型的数据中心正常运行时间风险时,数据显示这两项不应该是清单上的唯一行动。
好文章,需要你的鼓励
到 2025 年,人工智能将在生命科学行业带来重大变革。从智能搜索到无缝医疗服务,AI 将优化医疗专业人员和患者的体验。文章预测了 AI 在监管、安全、搜索、个性化服务等方面的具体应用,以及行业技术格局的变化。这些创新将为患者和医疗专业人员带来更高效、更有针对性的服务。
TenneT 携手诺基亚在北海部署光纤网络,连接海上风电场,助力可再生能源增产。该项目将采用先进光网络技术,支持远程监控和管理,确保可靠的能源传输。这一创新模式有望推动欧洲能源转型,为实现 2050 年气候中和目标做出重要贡献。
新加坡物流公司ST Logistics与联想合作,通过新的仓库执行系统和AI算法自动化关键流程。该系统优化货物移动,自动规划最快捷安全的运输路线,加快订单处理。联想的高性能计算系统和AI算法还将优化货物存储,提高即时发货物品的可访问性。这一合作旨在提升供应链效率,增强新加坡在区域竞争力。
研究机构 Coldago 针对不同文件存储应用场景,发布了三份独立的供应商评估报告。报告采用四象限图形式,将供应商分为企业级文件存储、高性能文件存储和云文件存储三类。这种分类方法与 GigaOm 的圆形四象限雷达图有所不同,体现了两家分析机构对文件存储市场的不同见解。