尽管云基础设施和超大规模数据中心的趋势使企业越来越依赖第三方进行 IT 运营,但据 Uptime Institute 最新调查显示,北美地区仍有 48% 的组织依赖本地数据中心。
对这些组织而言,投资和维护高可用性对确保关键业务系统和服务的正常运行至关重要。
作为业务重点,高可用性对维持业务连续性、最大化客户满意度和最小化财务损失都至关重要。无论是从零开始还是负责现有系统和关键基础设施,实现高可用性都必须掌握三个关键步骤:
保护物理设施 构建弹性基础设施 选择合适的运营工具
物理数据中心安全性
解决组织数据中心所在设施的安全漏洞往往是高可用性中被忽视的一个方面。
无论数据中心是独立建筑还是更大园区内的专用空间,如果 IT 基础设施面临恶意人为入侵、环境故障、断电或其他灾难等问题,那么对弹性 IT 架构、优秀运营工具和详细响应策略的投资都将失去意义。
为了防范和最小化此类可避免的非网络事件的风险,需要采取以下物理安全措施:
实时监控的安防摄像头 限制授权人员进入的强访问控制 可靠的电力基础设施,包括发电机和不间断电源 (UPS) 基于气体的消防系统,如 FM-200 具备温度和湿度控制的环境监控
弹性 IT 架构
IT 基础设施冗余是高可用性的基石。通过识别潜在的关键单点故障,并在可能的情况下确保有故障转移到备用资源的选项,可以降低事故发生时的停机风险。冗余应该覆盖硬件和软件层面。
实施故障转移集群、弹性网络路径、使用 RAID 的存储冗余以及用于灾难恢复的异地数据复制都是行之有效的策略。采用混合或多云方案也可以减少对单一服务提供商的依赖。
如果运营异地数据中心,确保其不依赖于主园区相同的电源。务必制定包含本地和异地备份存储的灾难恢复和业务连续性计划。
高可用性运营工具
在保护数据中心和构建弹性 IT 基础设施之后,现在需要确保一切按需运行。这意味着要选择能够让你按计划响应事件和执行响应方案的工具,尽可能实现自动化,并在出现问题时能在压力下做出正确决策。
由于好的决策需要好的数据,第一步是投资于擅长发现网络资产、摄取数据并更新配置管理数据库 (CMDB) 的 IT 运营管理工具。
以准确数据为基础,应用性能监控 (APM) 工具是深入了解网络系统健康状况的好选择。APM 和网络监控平台为 IT 管理人员提供及时决策所需的信息,用于维护、负载均衡和事件响应等运营问题。这对维持高可用性 (HA) 很重要,因为糟糕的决策会增加因可预防的系统故障导致服务中断的风险。
无论基础设施是本地、云端还是混合型,实现高可用性的另一个关键组件是建立故障转移集群,以促进甚至自动化服务和工作负载向备用资源的迁移。无论是硬件 (基于 SAN) 还是软件 (无 SAN),集群都支持服务无缝故障转移到备用资源,确保在性能严重降级或中断事件发生时的业务连续性。
当今企业倾向于选择无 SAN 高可用性集群,因为它在更依赖云系统和服务、虚拟机和软件的 IT 环境中运行更灵活。无 SAN 集群提供与传统 SAN 集群相同的功能,但更灵活且成本更低。此外,无 SAN 集群支持本地、云端或混合基础设施,可以支持地理分布式数据中心,这是网络弹性和灾难规划中的重要考虑因素。
保持服务在线
随着超大规模数据中心、云工作负载回迁和数字转型等趋势全面展开,当今的 IT 运营管理人员面临诸多变化。
然而,保持服务对用户可用并避免停机仍是一项始终如一的要求。通过包含物理安全、弹性架构和高可用性的规划,你可以让用户和客户保持满意。
好文章,需要你的鼓励
NetApp成为NFL官方智能数据基础设施合作伙伴,通过数据存储技术提升联盟运营,支持伦敦和马德里赛事,彰显其不断扩大的体育赞助战略。
FICO 首席分析官 Scott Zoldi 阐述了如何利用自建数据集、定制模型、AI 区块链技术等手段,实现小型语言模型与 agentic AI 在金融风险、诈骗等领域的有效落地,同时兼顾监管与创新。
NTT DATA的首席AI官柯林斯指出,企业AI正从辅助角色进化为自主决策的代理,其未来发展将依靠混合AI与全员AI素养,并需构建完善治理机制。
调查显示大部分CIO云支出超预算,主要因使用量激增(如AI任务增加),虽成本上升,但因云平台能加速创新、节约资源,他们仍看好云计算,并采取优化措施应对。