如果想提高数据中心的正常运行时间的话,就需要识别并减少最常见的故障源。这可能具有一定的挑战性,因为导致数据中心宕机的原因有很多,通常都不可能一下子解决所有的问题。数据中心运营商需要决定优先处理哪些正常运行时间的威胁。
美国正常运行时间研究所(Uptime Institute)的一份新报告在这方面提供了宝贵的指导。该报告详细介绍了截至 2024 年最常见的数据中心正常运行时间挑战,并对于一些会触发数据中心中断的事件揭示了一些令人惊讶的发现。
数据中心正常运行时间的最大威胁
有些人可能会认为,造成数据中心宕机的最常见原因是网络攻击或极端天气之类的风险,每当这一类风险发生时往往会受到媒体的大量关注。
但实际上,从数据中心正常运行时间的角度来看,这些风险几乎可以忽略不计。导致大多数数据中心故障的核心问题可以分为以下几类。
1、物理系统故障
电源问题是数据中心最常见故障的原因。根据 Uptime Institute 的报告,电源问题占所有数据中心故障的 52%。
另有 19% 的故障源于数据中心的冷却问题,Uptime Institute 将其与电力系统问题分开归类。
这意味着数据中心最大的正常运行时间风险明显是物理系统故障。数据中心运营商希望提高正常运行时间的话,就应该在冗余能源供应或暖通空调系统等解决方案方面进行投资。
2、第三方提供商的挑战
数据中心正常运行时间面临的第二个最常见威胁是 Uptime Institute 称之为有关第三方提供商的问题。这个问题指的是,企业通过外包协议或类似安排与服务提供商签订合同管理数据中心,而服务提供商导致了故障的发生。
至于转为数据中心内部运营能否能缓解这一问题是很难说的。按理说,数据中心外包公司专门从事数据中心的日常运营,其正常运行率可能比那些不以数据中心管理为重点的企业要高。但每个人在这方面的体验可能会有所不同,这取决于企业内部的员工是否擅长管理数据中心。
无论如何,这个数据点提醒我们,如果选择第三方提供商来管理数据中心的运营,那么就应该询问第三方提供商的正常运行时间记录,以确保提供商不会成为数据中心可用性战略中最薄弱的环节。
3、IT 设备故障
IT 系统硬件和软件故障是造成数据中心停机的第三大常见原因,这并不奇怪,因为自从数字时代开始以来,企业就一直在为服务器的崩溃而苦恼。
没有灵丹妙药可以降低这种风险,但还是有一些屡试不爽的策略,例如更多地在更好的监控和可观察性解决方案上投资,创建备份 IT 环境并配备自动故障转移控制,以便在服务器崩溃时,其工作负载可以立即转移到另一台服务器上。
4、网络故障
网络故障与 IT 设备故障类似:二者导致数据中心宕机的比率几乎完全相同,也是企业长期以来一直面临的一类挑战。
与增加 IT 设备正常运行时间一样,提升数据中心网络可靠性的策略包括更好地监控网络和在网络中构建冗余,使得数据包可以在网络部分出现故障时选择替代路径。
更广泛地使用软件定义网络也可以提高网络可靠性,使用软件控制而不是物理网络设备可以更容易识别和缓解故障。
其他数据中心正常运行时间挑战
火灾和信息安全事件也出现在Uptime Institute的数据中心停机原因排行榜上,但也只是勉强上榜,分别仅占所有停机事件的 3% 和 1%。
当然,这并不是说不应该投资防火措施和网络安全保护措施。但在考虑要优先哪些类型的数据中心正常运行时间风险时,数据显示这两项不应该是清单上的唯一行动。
好文章,需要你的鼓励
Allen AI研究所联合多家顶尖机构推出SAGE智能视频分析系统,首次实现类人化的"任意时长推理"能力。该系统能根据问题复杂程度灵活调整分析策略,配备六种智能工具进行协同分析,在处理10分钟以上视频时准确率提升8.2%。研究团队创建了包含1744个真实娱乐视频问题的SAGE-Bench评估平台,并采用创新的AI生成训练数据方法,为视频AI技术的实际应用开辟了新路径。
联想推出新一代NVMe存储解决方案DE6600系列,包含全闪存DE6600F和混合存储DE6600H两款型号。该系列产品延迟低于100微秒,支持多种连接协议,2U机架可容纳24块NVMe驱动器。容量可从367TB扩展至1.798PiB全闪存或7.741PiB混合配置,适用于AI、高性能计算、实时分析等场景,并配备双活控制器和XClarity统一管理平台。
中科院团队首次系统评估了AI视觉模型在文本压缩环境下的理解能力,发现虽然AI能准确识别压缩图像中的文字,但在理解深层含义、建立关联推理方面表现不佳。研究通过VTCBench测试系统揭示了AI存在"位置偏差"等问题,为视觉文本压缩技术的改进指明方向。