据弹性智库Uptime Institute称,与数据中心相关的故障发生频率和严重程度正在下降。
该组织的第六次年度停机分析报告称,尽管全球运营的数据中心数量显着增加,但与数据中心相关的崩溃数量多年来一直呈现下降趋势。
报告称:“在2023年Uptime Institute数据中心调查中,超过一半(55%)的运营商受访者表示,在过去三年中曾发生过停机,低于2022年的60%和2021年的69%。”
“与此同时,2023年只有十分之一的故障被归类为严重或者很严重,比2022年降低4个百分点,比2021年降低10个百分点。”
该调查结果是基于公开可用的数据中心故障数据、参与者对Uptime数据中心管理者年度全球调查及其弹性调查的反馈,以及其成员和合作伙伴的反馈。
该报告承认,由于企业和个人定义故障的方式以及他们记录的有关每个事件的性质和持续时间的详细程度存在差异,每个数据源都存在局限性。
即便如此,所有这些数据都表明,数据中心的服务可靠性水平正在提高,尽管运营商必须面对可能危及数据中心正常运行时间和可用性的多个方面的挑战。
报告称:“数十年的创新、投资和改进的管理显着提高了关键IT系统、网络和数据中心的可靠性。然而,运营商也面临着需求增加、基于软件的优化技术的采用、以及越来越多网络威胁带来的新挑战。”
报告补充说:“由于气候变化,恶劣天气事件的强度和频率都在增加,以及更多地使用电网中的可再生能源,都让风险进一步增加。”
就导致数据中心崩溃率明显下降的因素而言,Uptime表示,这一趋势可归因于运营商正在采取的“一系列措施”。
报告称:“更大力度的投资、基于软件的弹性和现场物理冗余的综合效应、改进的培训、外包和一些第三方运营商更专业的精神,以及总体上持续保持警惕,都是其中的因素。”
然而Uptime确实就一些新出现的风险因素发出了警告,包括网络和系统复杂性的增加,以及分布式架构的日益普及。
报告称:“这是为了减少局部故障。然而,正常运行时间数据表明,这种转变可能导致网络、软件或系统相关事件的增加。”
招聘和培训员工以减少人为错误相关的停机,以及建立“经过验证的管理流程”以完全避免停机事件,这些方面也面临着“持续的挑战”。
此外据Uptime称,运营商们还需要注意其他外部风险领域,包括能源网络的稳定性和气候变化。尽管该报告承认,运营商们几乎无法直接应对这些威胁,但可以采取一些措施来降低风险。
报告称:“总而言之,预防故障中断需要持续的警惕和投资——目前,数字基础设施行业正处于改善的轨道上。”
“如果要维持这一点,就需要稳健的数据中心设计、对IT架构和拓扑的详细关注、物理基础设施冗余、测试、改进的培训和持续审查。”
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。