据弹性智库Uptime Institute称,与数据中心相关的故障发生频率和严重程度正在下降。
该组织的第六次年度停机分析报告称,尽管全球运营的数据中心数量显着增加,但与数据中心相关的崩溃数量多年来一直呈现下降趋势。
报告称:“在2023年Uptime Institute数据中心调查中,超过一半(55%)的运营商受访者表示,在过去三年中曾发生过停机,低于2022年的60%和2021年的69%。”
“与此同时,2023年只有十分之一的故障被归类为严重或者很严重,比2022年降低4个百分点,比2021年降低10个百分点。”
该调查结果是基于公开可用的数据中心故障数据、参与者对Uptime数据中心管理者年度全球调查及其弹性调查的反馈,以及其成员和合作伙伴的反馈。
该报告承认,由于企业和个人定义故障的方式以及他们记录的有关每个事件的性质和持续时间的详细程度存在差异,每个数据源都存在局限性。
即便如此,所有这些数据都表明,数据中心的服务可靠性水平正在提高,尽管运营商必须面对可能危及数据中心正常运行时间和可用性的多个方面的挑战。
报告称:“数十年的创新、投资和改进的管理显着提高了关键IT系统、网络和数据中心的可靠性。然而,运营商也面临着需求增加、基于软件的优化技术的采用、以及越来越多网络威胁带来的新挑战。”
报告补充说:“由于气候变化,恶劣天气事件的强度和频率都在增加,以及更多地使用电网中的可再生能源,都让风险进一步增加。”
就导致数据中心崩溃率明显下降的因素而言,Uptime表示,这一趋势可归因于运营商正在采取的“一系列措施”。
报告称:“更大力度的投资、基于软件的弹性和现场物理冗余的综合效应、改进的培训、外包和一些第三方运营商更专业的精神,以及总体上持续保持警惕,都是其中的因素。”
然而Uptime确实就一些新出现的风险因素发出了警告,包括网络和系统复杂性的增加,以及分布式架构的日益普及。
报告称:“这是为了减少局部故障。然而,正常运行时间数据表明,这种转变可能导致网络、软件或系统相关事件的增加。”
招聘和培训员工以减少人为错误相关的停机,以及建立“经过验证的管理流程”以完全避免停机事件,这些方面也面临着“持续的挑战”。
此外据Uptime称,运营商们还需要注意其他外部风险领域,包括能源网络的稳定性和气候变化。尽管该报告承认,运营商们几乎无法直接应对这些威胁,但可以采取一些措施来降低风险。
报告称:“总而言之,预防故障中断需要持续的警惕和投资——目前,数字基础设施行业正处于改善的轨道上。”
“如果要维持这一点,就需要稳健的数据中心设计、对IT架构和拓扑的详细关注、物理基础设施冗余、测试、改进的培训和持续审查。”
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。