据弹性智库Uptime Institute称,与数据中心相关的故障发生频率和严重程度正在下降。
该组织的第六次年度停机分析报告称,尽管全球运营的数据中心数量显着增加,但与数据中心相关的崩溃数量多年来一直呈现下降趋势。
报告称:“在2023年Uptime Institute数据中心调查中,超过一半(55%)的运营商受访者表示,在过去三年中曾发生过停机,低于2022年的60%和2021年的69%。”
“与此同时,2023年只有十分之一的故障被归类为严重或者很严重,比2022年降低4个百分点,比2021年降低10个百分点。”
该调查结果是基于公开可用的数据中心故障数据、参与者对Uptime数据中心管理者年度全球调查及其弹性调查的反馈,以及其成员和合作伙伴的反馈。
该报告承认,由于企业和个人定义故障的方式以及他们记录的有关每个事件的性质和持续时间的详细程度存在差异,每个数据源都存在局限性。
即便如此,所有这些数据都表明,数据中心的服务可靠性水平正在提高,尽管运营商必须面对可能危及数据中心正常运行时间和可用性的多个方面的挑战。
报告称:“数十年的创新、投资和改进的管理显着提高了关键IT系统、网络和数据中心的可靠性。然而,运营商也面临着需求增加、基于软件的优化技术的采用、以及越来越多网络威胁带来的新挑战。”
报告补充说:“由于气候变化,恶劣天气事件的强度和频率都在增加,以及更多地使用电网中的可再生能源,都让风险进一步增加。”
就导致数据中心崩溃率明显下降的因素而言,Uptime表示,这一趋势可归因于运营商正在采取的“一系列措施”。
报告称:“更大力度的投资、基于软件的弹性和现场物理冗余的综合效应、改进的培训、外包和一些第三方运营商更专业的精神,以及总体上持续保持警惕,都是其中的因素。”
然而Uptime确实就一些新出现的风险因素发出了警告,包括网络和系统复杂性的增加,以及分布式架构的日益普及。
报告称:“这是为了减少局部故障。然而,正常运行时间数据表明,这种转变可能导致网络、软件或系统相关事件的增加。”
招聘和培训员工以减少人为错误相关的停机,以及建立“经过验证的管理流程”以完全避免停机事件,这些方面也面临着“持续的挑战”。
此外据Uptime称,运营商们还需要注意其他外部风险领域,包括能源网络的稳定性和气候变化。尽管该报告承认,运营商们几乎无法直接应对这些威胁,但可以采取一些措施来降低风险。
报告称:“总而言之,预防故障中断需要持续的警惕和投资——目前,数字基础设施行业正处于改善的轨道上。”
“如果要维持这一点,就需要稳健的数据中心设计、对IT架构和拓扑的详细关注、物理基础设施冗余、测试、改进的培训和持续审查。”
好文章,需要你的鼓励
Allen AI研究所联合多家顶尖机构推出SAGE智能视频分析系统,首次实现类人化的"任意时长推理"能力。该系统能根据问题复杂程度灵活调整分析策略,配备六种智能工具进行协同分析,在处理10分钟以上视频时准确率提升8.2%。研究团队创建了包含1744个真实娱乐视频问题的SAGE-Bench评估平台,并采用创新的AI生成训练数据方法,为视频AI技术的实际应用开辟了新路径。
联想推出新一代NVMe存储解决方案DE6600系列,包含全闪存DE6600F和混合存储DE6600H两款型号。该系列产品延迟低于100微秒,支持多种连接协议,2U机架可容纳24块NVMe驱动器。容量可从367TB扩展至1.798PiB全闪存或7.741PiB混合配置,适用于AI、高性能计算、实时分析等场景,并配备双活控制器和XClarity统一管理平台。
中科院团队首次系统评估了AI视觉模型在文本压缩环境下的理解能力,发现虽然AI能准确识别压缩图像中的文字,但在理解深层含义、建立关联推理方面表现不佳。研究通过VTCBench测试系统揭示了AI存在"位置偏差"等问题,为视觉文本压缩技术的改进指明方向。