在一个数字服务支撑从金融交易到紧急通信等各个方面的世界中,停机不仅仅是一种不便,甚至是一种企业必须承担的风险。
根据 Ponemon 的数据,每一分钟数据中心停机的平均成本为 9000 美元。因此,问题不在于企业是否能够从中断中恢复,而在于它们是否能够彻底预防这些问题。
然而,面临的挑战在于复杂性。对计算能力日益增长的需求正使数据中心接近其极限,同时又要作为多租户环境运营,支持多个具有不同需求的实体。
应对这种复杂性需要一个强健的基础设施、一个先进的建筑管理系统(BMS),以及合适的战略合作伙伴,来帮助简化并集中管理运营、增强整个系统的韧性并理顺责任归属。
这种整合确保了从电力分配到网络安全等每个组件都能实现无缝协同运作。这不仅仅关乎技术,更关乎在一个不允许停机的环境中保证长期的可扩展性、韧性与效率。
可扩展性是基础
随着企业的发展壮大,支撑它们的数据中心也必须不断进化。缺乏可扩展性常常会使得解决方案零散拼凑,从而影响效率与安全性。因此,在进行任何系统集成时,都必须以可扩展性为前提,确保企业未来的增长不会引发额外的复杂问题。
在考虑安全性、电源供应可靠性等运营变量时,这点尤为重要。例如,不间断电源和可靠的冷却系统是减少停机并确保连续运营的关键。这涵盖了从评估数据中心的电源,到电源使用效率(PUE)、总能耗,以及如何持续监控电力使用和热状态等各个方面。
这些系统必须具备适应性、灵活性,并能够响应数据中心不断变化的需求,而借助预测性分析和自动化技术,这一过程还可进一步优化。
通过冗余实现韧性
韧性以及不中断运营的基石历来都是冗余,这是现代数据中心最为关键的环节之一。
数据中心必须做到完全容错,并按照企业行业标准建设,涵盖前述的电源、网络安全以及防火系统等各个方面。高度冗余的设计有助于最大程度地降低数据中心内的脆弱性,并有助于实现备受追捧的“five nines”或 99.999% 的运行时间,这相当于每年仅有 5.26 分钟的停机时间。
集成监控与控制
话虽如此,提升对数据中心运营的情境感知和可视性同样可有效保障系统韧性。自动化建筑管理系统应当支持对运营的实时监控,并实现 OT 与 IT 资产的互联互通,从而显著提高运营效率并实现早期预警。关键在于在问题或故障发生之前预先发现并加以应对。对异常现象的早期检测和对事故的迅速响应,将大大降低运营风险。
以灭火系统为例,造成损害的不仅是火势的大小,还有所采用的灭火系统类型。一个有效的建筑管理系统能够识别火灾的位置和类型,并调配合适的灭火措施,以减少对数据中心内高度敏感电气系统可能造成的附带损害。然而,如果没有一个实现完全连通和自主响应的建筑管理系统,这种端到端的应急响应便无法实现。
集中式管理方法
通过将数据中心管理的各个方面统一整合到一个协调一致的建筑管理系统中,运营商就能获得更高的可用性和可靠性。他们可以更轻松地应对来自能源、火灾和系统故障等多个方面的威胁,同时也能在企业成长和需求不断变化的过程中保持可扩展性。
高可用性不再只是一个遥不可及的目标,而是一项必需。借助创新解决方案,数据中心能够从容应对这个日益数字化世界的各种需求。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。