数据中心作为当今数字经济的枢纽作用起到了越来越重要的作用。不论在疫情期间支持各行各业的远程办公、远程协作,还是在百姓日常生活中的衣食住行、办公、就医等大量的业务都走向了线上化、数字化,而这些对于数据中心的稳定性、运维能力都提出了更高要求。
数据中心运维其本质是对数据中心的网络、服务器、以及服务的全生命周期的运营与维护,在成本、稳定性、效率上实现质量可交付的状态。虽然数据中心运维中的很多不确定性都是由小概率事件所引起,但这些不确定的风险让数据中心变得更脆弱,会对整个业务带来极大的破坏。因此,基于算法的IT运维AIOps(Algorithmic IT Operations)运营而生。
英特尔与HPE联合国家再生能源实验室(NREL)展开了AI运维研发合作,运用数据科学和算法优化传统的IT运维任务和流程、进一步简化运维,并取得了卓著的成效。
提升运维效率 依赖高效的计算能力
再生能源实验室(NREL)的AI运维研发一开始就有明确的目标——利用AI和机器学习技术,面向百万兆计算时代的数据中心全面提升运营效率和自动化水平。NREL认为,这将助力NREL引领行业持续提升能源效率,改善可再生能源技术,不断开拓和实践新的方法以降低能耗和运营成本。
为此,NREL正利用采用搭配第三代英特尔® 至强® 可扩展处理器的超级计算机Peregrine,Eagle等设备,通过收集长达五年、数据总量超过16TB的历史数据进行训练异常检测的模型,来预防问题的发生。
英特尔® 至强® 可扩展处理器作为一款集成人工智能加速及硬件增强型安全功能的数据中心级 CPU,其展现出来的优势不言而喻:第三代英特尔® 至强® 可扩展处理器在处理各种人工智能工作负载时较上一代产品有着更高的性能。此外,通过能够简化主流端到端数据科学工具的英特尔优化方案,并在 oneAPI 开放标准支持下,第三代英特尔® 至强® 可扩展处理器让数据中心运维工程师们能够更加快速轻松地打造并广泛部署更智能的模型,更简单地从概念验证阶段 (PoC) 顺利过渡到生产阶段。
确实,NREL迅速获取得了阶段性成果。目前,基于历史数据训练模型已经成功地预测并识别出NREL数据中心即将发生的风险事件,探索出在未来数据中心内使用预测分析的可行性。
这项成果也得到了NREL的高度认可。NREL数据,分析和可视化小组经理Kristin Munch表示:“我们的研究合作将涵盖数据管理,数据分析和AI / ML优化领域,以进行数据中心运营过程中的人工和自动干预。我们希望,通过在现有数据中心内测试这些技术,能够为更高级的智能设施奠定能力基础。”
降低成本,让AI开创更广泛的应用场景
NREL的成功使业界认识到,通过使用由AI驱动的运营,未来百万兆级计算机的运行速度将比目前高出一千倍,并能实现高效率的运营,提高弹性和可靠性,而这正是AI Ops项目建立的初衷。
NREL充分使用开源软件以及TensorFlow、NumPy和Sci-kit库开发机器学习算法在监控、分析、管控以及数据中心运营等场景下帮助数据中心实现更为高效和低成本的运营。同样,英特尔® 至强® 可扩展处理器也成为了省钱利器。英特尔®Speed Select 技术,通过配置一台(而不是多台)服务器就可满足不断变化的工作负载处理需求,从而提高服务器利用率以及总体拥有成本。
此外,通过英特尔® 至强® 可扩展处理器可扩展、灵活、可自定义的优势,让机器学习可以在多个场景帮助运维实现智能化的改造。这包括:在监控方面,可实现实时收集、处理并分析不同来源的IT设施遥测数据;在分析领域,应用大数据分析和机器学习手段,对于来自数据中心内各种设施的数据进行分析; 而在提高管控能力上,通过应用算法赋能机器自动解决各种问题,并智能地使重复性工作自动化,对IT和数据中心设施进行预测性维护;数据中心运营方面则取得了更大成效:AI Ops将进化成为一种验证工具,用于核心IT功能的持续集成(CI)和持续部署(CD)。
未来,高效的计算结合大数据,机器学习等分析技术,通过预防性预测、个性化和动态分析,可增强IT业务技术能力,通过AI调度中心管理和质量、成本、效率优化实现无人值守运维,让运营系统综合效益实现最大化。
好文章,需要你的鼓励
这项研究介绍了Ankh3,一种创新的蛋白质语言模型,通过多任务预训练策略显著提升了模型性能。研究者采用两种互补任务:多掩码概率的掩码语言建模和蛋白质序列补全,使模型仅从蛋白质序列就能学到更丰富的表示。实验表明,Ankh3在二级结构预测、荧光预测等下游任务中表现优异,尤其在模型未曾训练过的任务上展现出强大泛化能力,为蛋白质设计和分析开辟了新路径。
法国波尔多大学研究团队开发了一个突破性框架,用于神经退行性痴呆症的差异化诊断。该框架将3D脑部MRI转换为文本报告,并利用强化学习优化的大语言模型进行详细诊断推理。不同于传统"黑箱"方法,这一系统能生成透明、有因果关系的解释,同时保持高诊断准确率。研究显示,通过群组相对策略优化(GRPO)训练的轻量级模型能展现复杂推理行为,包括假设检验和非线性思考,提供与临床决策流程一致的排序诊断结果。
这项研究提出了CLUE框架,首次能够生成自然语言解释来揭示AI事实核查系统不确定性的来源。与现有方法不同,CLUE能识别文本片段间的冲突与一致关系,并解释它们如何影响模型的预测不确定性。实验表明,CLUE生成的解释在三种语言模型和两个事实核查数据集上都更忠实于模型不确定性,用户评价其更有帮助、信息更丰富、冗余更少且逻辑更一致。CLUE不需要微调或架构更改,适用于任何白盒语言模型,为事实核查提供了实用支持。
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。