在一个数字服务支撑从金融交易到紧急通信等各个方面的世界中,停机不仅仅是一种不便,甚至是一种企业必须承担的风险。
根据 Ponemon 的数据,每一分钟数据中心停机的平均成本为 9000 美元。因此,问题不在于企业是否能够从中断中恢复,而在于它们是否能够彻底预防这些问题。
然而,面临的挑战在于复杂性。对计算能力日益增长的需求正使数据中心接近其极限,同时又要作为多租户环境运营,支持多个具有不同需求的实体。
应对这种复杂性需要一个强健的基础设施、一个先进的建筑管理系统(BMS),以及合适的战略合作伙伴,来帮助简化并集中管理运营、增强整个系统的韧性并理顺责任归属。
这种整合确保了从电力分配到网络安全等每个组件都能实现无缝协同运作。这不仅仅关乎技术,更关乎在一个不允许停机的环境中保证长期的可扩展性、韧性与效率。
可扩展性是基础
随着企业的发展壮大,支撑它们的数据中心也必须不断进化。缺乏可扩展性常常会使得解决方案零散拼凑,从而影响效率与安全性。因此,在进行任何系统集成时,都必须以可扩展性为前提,确保企业未来的增长不会引发额外的复杂问题。
在考虑安全性、电源供应可靠性等运营变量时,这点尤为重要。例如,不间断电源和可靠的冷却系统是减少停机并确保连续运营的关键。这涵盖了从评估数据中心的电源,到电源使用效率(PUE)、总能耗,以及如何持续监控电力使用和热状态等各个方面。
这些系统必须具备适应性、灵活性,并能够响应数据中心不断变化的需求,而借助预测性分析和自动化技术,这一过程还可进一步优化。
通过冗余实现韧性
韧性以及不中断运营的基石历来都是冗余,这是现代数据中心最为关键的环节之一。
数据中心必须做到完全容错,并按照企业行业标准建设,涵盖前述的电源、网络安全以及防火系统等各个方面。高度冗余的设计有助于最大程度地降低数据中心内的脆弱性,并有助于实现备受追捧的“five nines”或 99.999% 的运行时间,这相当于每年仅有 5.26 分钟的停机时间。
集成监控与控制
话虽如此,提升对数据中心运营的情境感知和可视性同样可有效保障系统韧性。自动化建筑管理系统应当支持对运营的实时监控,并实现 OT 与 IT 资产的互联互通,从而显著提高运营效率并实现早期预警。关键在于在问题或故障发生之前预先发现并加以应对。对异常现象的早期检测和对事故的迅速响应,将大大降低运营风险。
以灭火系统为例,造成损害的不仅是火势的大小,还有所采用的灭火系统类型。一个有效的建筑管理系统能够识别火灾的位置和类型,并调配合适的灭火措施,以减少对数据中心内高度敏感电气系统可能造成的附带损害。然而,如果没有一个实现完全连通和自主响应的建筑管理系统,这种端到端的应急响应便无法实现。
集中式管理方法
通过将数据中心管理的各个方面统一整合到一个协调一致的建筑管理系统中,运营商就能获得更高的可用性和可靠性。他们可以更轻松地应对来自能源、火灾和系统故障等多个方面的威胁,同时也能在企业成长和需求不断变化的过程中保持可扩展性。
高可用性不再只是一个遥不可及的目标,而是一项必需。借助创新解决方案,数据中心能够从容应对这个日益数字化世界的各种需求。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。