据弹性智库Uptime Institute称,与数据中心相关的故障发生频率和严重程度正在下降。
该组织的第六次年度停机分析报告称,尽管全球运营的数据中心数量显着增加,但与数据中心相关的崩溃数量多年来一直呈现下降趋势。
报告称:“在2023年Uptime Institute数据中心调查中,超过一半(55%)的运营商受访者表示,在过去三年中曾发生过停机,低于2022年的60%和2021年的69%。”
“与此同时,2023年只有十分之一的故障被归类为严重或者很严重,比2022年降低4个百分点,比2021年降低10个百分点。”
该调查结果是基于公开可用的数据中心故障数据、参与者对Uptime数据中心管理者年度全球调查及其弹性调查的反馈,以及其成员和合作伙伴的反馈。
该报告承认,由于企业和个人定义故障的方式以及他们记录的有关每个事件的性质和持续时间的详细程度存在差异,每个数据源都存在局限性。
即便如此,所有这些数据都表明,数据中心的服务可靠性水平正在提高,尽管运营商必须面对可能危及数据中心正常运行时间和可用性的多个方面的挑战。
报告称:“数十年的创新、投资和改进的管理显着提高了关键IT系统、网络和数据中心的可靠性。然而,运营商也面临着需求增加、基于软件的优化技术的采用、以及越来越多网络威胁带来的新挑战。”
报告补充说:“由于气候变化,恶劣天气事件的强度和频率都在增加,以及更多地使用电网中的可再生能源,都让风险进一步增加。”
就导致数据中心崩溃率明显下降的因素而言,Uptime表示,这一趋势可归因于运营商正在采取的“一系列措施”。
报告称:“更大力度的投资、基于软件的弹性和现场物理冗余的综合效应、改进的培训、外包和一些第三方运营商更专业的精神,以及总体上持续保持警惕,都是其中的因素。”
然而Uptime确实就一些新出现的风险因素发出了警告,包括网络和系统复杂性的增加,以及分布式架构的日益普及。
报告称:“这是为了减少局部故障。然而,正常运行时间数据表明,这种转变可能导致网络、软件或系统相关事件的增加。”
招聘和培训员工以减少人为错误相关的停机,以及建立“经过验证的管理流程”以完全避免停机事件,这些方面也面临着“持续的挑战”。
此外据Uptime称,运营商们还需要注意其他外部风险领域,包括能源网络的稳定性和气候变化。尽管该报告承认,运营商们几乎无法直接应对这些威胁,但可以采取一些措施来降低风险。
报告称:“总而言之,预防故障中断需要持续的警惕和投资——目前,数字基础设施行业正处于改善的轨道上。”
“如果要维持这一点,就需要稳健的数据中心设计、对IT架构和拓扑的详细关注、物理基础设施冗余、测试、改进的培训和持续审查。”
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。