数据中心反脆弱：用AIOps应对运维中的高度不确定原创

数据中心运维其本质是对数据中心的网络、服务器、以及服务的全生命周期的运营与维护，在成本、稳定性、效率上实现质量可交付的状态。虽然数据中心运维中的很多不确定性都是由小概率事件引起，但这些不确定的风险让数据中心变得更脆弱。

数据中心作为当今数字经济的枢纽作用起到了越来越重要的作用。不论在疫情期间支持各行各业的远程办公、远程协作，还是在百姓日常生活中的衣食住行、办公、就医等大量的业务都走向了线上化、数字化，而这些对于数据中心的稳定性、运维能力都提出了更高要求。

数据中心运维其本质是对数据中心的网络、服务器、以及服务的全生命周期的运营与维护，在成本、稳定性、效率上实现质量可交付的状态。虽然数据中心运维中的很多不确定性都是由小概率事件所引起，但这些不确定的风险让数据中心变得更脆弱，会对整个业务带来极大的破坏。因此，基于算法的IT运维AIOps（Algorithmic IT Operations）运营而生。

英特尔与HPE联合国家再生能源实验室（NREL）展开了AI运维研发合作，运用数据科学和算法优化传统的IT运维任务和流程、进一步简化运维，并取得了卓著的成效。

数据中心反脆弱：用AIOps应对运维中的高度不确定

提升运维效率依赖高效的计算能力

再生能源实验室（NREL）的AI运维研发一开始就有明确的目标——利用AI和机器学习技术，面向百万兆计算时代的数据中心全面提升运营效率和自动化水平。NREL认为，这将助力NREL引领行业持续提升能源效率，改善可再生能源技术，不断开拓和实践新的方法以降低能耗和运营成本。

为此，NREL正利用采用搭配第三代英特尔® 至强® 可扩展处理器的超级计算机Peregrine，Eagle等设备，通过收集长达五年、数据总量超过16TB的历史数据进行训练异常检测的模型，来预防问题的发生。

英特尔® 至强® 可扩展处理器作为一款集成人工智能加速及硬件增强型安全功能的数据中心级 CPU，其展现出来的优势不言而喻：第三代英特尔® 至强® 可扩展处理器在处理各种人工智能工作负载时较上一代产品有着更高的性能。此外，通过能够简化主流端到端数据科学工具的英特尔优化方案，并在 oneAPI 开放标准支持下，第三代英特尔® 至强® 可扩展处理器让数据中心运维工程师们能够更加快速轻松地打造并广泛部署更智能的模型，更简单地从概念验证阶段 (PoC) 顺利过渡到生产阶段。

确实，NREL迅速获取得了阶段性成果。目前，基于历史数据训练模型已经成功地预测并识别出NREL数据中心即将发生的风险事件，探索出在未来数据中心内使用预测分析的可行性。

这项成果也得到了NREL的高度认可。NREL数据，分析和可视化小组经理Kristin Munch表示：“我们的研究合作将涵盖数据管理，数据分析和AI / ML优化领域，以进行数据中心运营过程中的人工和自动干预。我们希望，通过在现有数据中心内测试这些技术，能够为更高级的智能设施奠定能力基础。”

降低成本，让AI开创更广泛的应用场景

NREL的成功使业界认识到，通过使用由AI驱动的运营，未来百万兆级计算机的运行速度将比目前高出一千倍，并能实现高效率的运营，提高弹性和可靠性，而这正是AI Ops项目建立的初衷。

NREL充分使用开源软件以及TensorFlow、NumPy和Sci-kit库开发机器学习算法在监控、分析、管控以及数据中心运营等场景下帮助数据中心实现更为高效和低成本的运营。同样，英特尔® 至强® 可扩展处理器也成为了省钱利器。英特尔®Speed Select 技术，通过配置一台（而不是多台）服务器就可满足不断变化的工作负载处理需求，从而提高服务器利用率以及总体拥有成本。

此外，通过英特尔® 至强® 可扩展处理器可扩展、灵活、可自定义的优势，让机器学习可以在多个场景帮助运维实现智能化的改造。这包括：在监控方面，可实现实时收集、处理并分析不同来源的IT设施遥测数据；在分析领域，应用大数据分析和机器学习手段，对于来自数据中心内各种设施的数据进行分析；而在提高管控能力上，通过应用算法赋能机器自动解决各种问题，并智能地使重复性工作自动化，对IT和数据中心设施进行预测性维护；数据中心运营方面则取得了更大成效：AI Ops将进化成为一种验证工具，用于核心IT功能的持续集成（CI）和持续部署（CD）。

未来，高效的计算结合大数据，机器学习等分析技术，通过预防性预测、个性化和动态分析，可增强IT业务技术能力，通过AI调度中心管理和质量、成本、效率优化实现无人值守运维，让运营系统综合效益实现最大化。

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

数据中心反脆弱：用AIOps应对运维中的高度不确定 原创

来源：至顶网软件与服务频道

2022

12/26

10:32

分享

点赞

数智时代，openGauss Summit 2025即将发布哪些技术创新破局

“算力+储能”深度融合：超智算发布分布式算力超级节点储能解决方案

联想推出DE6600系列：更智能的存储解决方案

创业公司如何在严格监管行业中实现生死攸关的创新

OpenAI发布GPT-5.2-Codex模型，软件工程自动化能力大幅提升

Waterfox浏览器宣布拒绝AI功能，瞄准Firefox忠实用户

TikTok美国业务出售交易将于下月完成

破局AI数据中心安全瓶颈：Fortinet联合NVIDIA引领隔离式加速新航向

智算中心进化论，科华数据如何做到“更懂”

更高负载、更快建设：2026年数据中心六大趋势

Snowflake数据库更新引发全球大规模服务中断

AI编程初创公司Lovable融资3.3亿美元，英伟达等科技巨头支持

数据中心增长与可持续发展并非对立关系

英特尔至强6新品发布，能为数据中心带来哪些改变？

AI 如何重塑数据中心：电力、制冷和基础设施挑战

欧洲云企业测试"冷箱式服务器刀片"系统

2025年数据中心可持续发展的7大重要策略

数据中心将推动全球电力需求激增 - 国际能源署报告

韩国计划打造全球最大人工智能数据中心

数据中心管道设施指南：制冷、效率与可持续性

GDS 据传考虑 DayOne 5亿美元 IPO

为什么液冷技术对数据中心的未来至关重要

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

数据中心反脆弱：用AIOps应对运维中的高度不确定原创