如果想提高数据中心的正常运行时间的话,就需要识别并减少最常见的故障源。这可能具有一定的挑战性,因为导致数据中心宕机的原因有很多,通常都不可能一下子解决所有的问题。数据中心运营商需要决定优先处理哪些正常运行时间的威胁。
美国正常运行时间研究所(Uptime Institute)的一份新报告在这方面提供了宝贵的指导。该报告详细介绍了截至 2024 年最常见的数据中心正常运行时间挑战,并对于一些会触发数据中心中断的事件揭示了一些令人惊讶的发现。
数据中心正常运行时间的最大威胁
有些人可能会认为,造成数据中心宕机的最常见原因是网络攻击或极端天气之类的风险,每当这一类风险发生时往往会受到媒体的大量关注。
但实际上,从数据中心正常运行时间的角度来看,这些风险几乎可以忽略不计。导致大多数数据中心故障的核心问题可以分为以下几类。
1、物理系统故障
电源问题是数据中心最常见故障的原因。根据 Uptime Institute 的报告,电源问题占所有数据中心故障的 52%。
另有 19% 的故障源于数据中心的冷却问题,Uptime Institute 将其与电力系统问题分开归类。
这意味着数据中心最大的正常运行时间风险明显是物理系统故障。数据中心运营商希望提高正常运行时间的话,就应该在冗余能源供应或暖通空调系统等解决方案方面进行投资。
2、第三方提供商的挑战
数据中心正常运行时间面临的第二个最常见威胁是 Uptime Institute 称之为有关第三方提供商的问题。这个问题指的是,企业通过外包协议或类似安排与服务提供商签订合同管理数据中心,而服务提供商导致了故障的发生。
至于转为数据中心内部运营能否能缓解这一问题是很难说的。按理说,数据中心外包公司专门从事数据中心的日常运营,其正常运行率可能比那些不以数据中心管理为重点的企业要高。但每个人在这方面的体验可能会有所不同,这取决于企业内部的员工是否擅长管理数据中心。
无论如何,这个数据点提醒我们,如果选择第三方提供商来管理数据中心的运营,那么就应该询问第三方提供商的正常运行时间记录,以确保提供商不会成为数据中心可用性战略中最薄弱的环节。
3、IT 设备故障
IT 系统硬件和软件故障是造成数据中心停机的第三大常见原因,这并不奇怪,因为自从数字时代开始以来,企业就一直在为服务器的崩溃而苦恼。
没有灵丹妙药可以降低这种风险,但还是有一些屡试不爽的策略,例如更多地在更好的监控和可观察性解决方案上投资,创建备份 IT 环境并配备自动故障转移控制,以便在服务器崩溃时,其工作负载可以立即转移到另一台服务器上。
4、网络故障
网络故障与 IT 设备故障类似:二者导致数据中心宕机的比率几乎完全相同,也是企业长期以来一直面临的一类挑战。
与增加 IT 设备正常运行时间一样,提升数据中心网络可靠性的策略包括更好地监控网络和在网络中构建冗余,使得数据包可以在网络部分出现故障时选择替代路径。
更广泛地使用软件定义网络也可以提高网络可靠性,使用软件控制而不是物理网络设备可以更容易识别和缓解故障。
其他数据中心正常运行时间挑战
火灾和信息安全事件也出现在Uptime Institute的数据中心停机原因排行榜上,但也只是勉强上榜,分别仅占所有停机事件的 3% 和 1%。
当然,这并不是说不应该投资防火措施和网络安全保护措施。但在考虑要优先哪些类型的数据中心正常运行时间风险时,数据显示这两项不应该是清单上的唯一行动。
好文章,需要你的鼓励
一个目标是让来自不同组织的 AI 代理能够自由无缝地相互交流。但要实现这一点,需要实现互操作性,而这些代理可能是使用不同的 LLM、数据框架和代码构建的。为了实现互操作性,这些代理的开发者必须就如何相互通信达成一致。这是一项具有挑战性的任务。
周四,法国大型语言模型(LLM)开发商Mistral推出了一款新API,专为处理复杂PDF文档的开发者设计。Mistral OCR是一种光学字符识别(OCR)API,可以将任何PDF转换为文本文件,以便AI模型更容易地进行处理。
Google 正在测试一种全新的 AI 搜索模式,将搜索引擎转变为由 Gemini 2.0 驱动的定制聊天机器人界面。用户可以通过这个界面提问、获取答案,并深入探讨特定主题。这一模式目前作为小规模实验推出,但可能预示着 Google 搜索的未来发展方向:一种以 AI 为主导的搜索体验,可能会改变信息呈现和获取的方式。
随着科技巨头投入巨资建设新数据中心,如何在满足持续计算需求的同时保证能源系统可靠性和可持续性成为行业挑战。微电网作为潜在解决方案,可集成可再生能源、优化用电、提高电力稳定性,并在高峰期减少对电网依赖。它能够增强数据中心的弹性、实现成本效益的能源管理,并助力实现可持续发展目标。