“亚健康”这个词不仅在生活中被熟知,而且大家经常使用的信息系统中也会经常遇到;亚健康状态,顾名思义,是存储系统介于健康状态和故障状态之间的一种状态,系统仍在运行且功能正常但处于降级模式的一种情况,它的存在会造成系统性能严重低于预期。浪潮存储基于对亚健康状态的研究,在分布式存储平台进行技术创新,研发了亚健康状态监控功能,对硬件、系统、网络等进行实时监测,当系统发现运行过程中存在亚健康状态时,可快速定位原因、上报、并对处于亚健康的部件进行必要的处理,降低亚健康状态对存储系统的影响,保障用户数据服务的可靠、高效。
过去因大部分应用系统规模较小,一般会将亚健康状态划归到故障进行处理,系统在这种情况下虽处于亚健康状态,但仍可以对外提供服务,处于亚健康的部件却被当成故障处理扩大了亚健康状态的影响范围,有时甚至会导致系统不可提供服务,也造成了资源浪费。近年来,随着新技术的快速发展,以及分布式系统部署规模的增加,亚健康状态对于存储系统的影响已经越来越显著,之前亚健康状态处理方式已经不适合现在的大规模系统,亟待更加智能、高效的机制来保障存储系统健康运行。
亚健康状态是隐形的系统杀手
以网络亚健康为例,网卡故障、驱动程序故障、设备故障、接线松动、温度过高过低等都可能引起网络亚健康状态,尽管产生网络亚健康状态的原因众多,但其对外表现的现象相对简单,主要是网络时延的增加和网络丢包率的增加。如下为网络丢包率和时延对分布式存储系统性能的影响。
|
|
|
在一个分布式存储系统中,单个节点网络丢包率或网络时延增加时,存储系统的性能会极快速的下降,5%的丢包率或50ms时延,就足以使存储系统性能下降一半左右。
从网络亚健康实例中可以看出,亚健康状态对系统的危害,即使一个微小的亚健康状态,对系统性能的影响都是巨大的。此外CPU、内存、硬盘模块、网卡等硬件部件、操作系统以及软件运行均有可能进入亚健康状态,
浪潮存储基于大量来自企业、大学、实验室等案例的亚健康状态的研究,进行了故障分类和根因分析,可以看出,硬件亚健康故障占比33%,网络亚健康故障占比38%,这两类故障占比超过整体的70%。
|
分类 |
占比 |
根因 |
总量 |
|
硬件 |
33% |
设备错误/磨损:46 |
75 |
|
固件错误 :24 |
|||
|
未知 :5 |
|||
|
软件 |
11% |
升级错误 :8 |
25 |
|
虚拟机错误 :6 |
|||
|
垃圾回收错误:3 |
|||
|
未知 :8 |
|||
|
网络 |
38% |
设备错误 :52 |
87 |
|
固件错误 :12 |
|||
|
丢包 :5 |
|||
|
未知 :18 |
|||
|
环境 |
6% |
错误安装 :11 |
13 |
|
高负载 :1 |
|||
|
能源异常 :1 |
|||
|
人为 |
9% |
错误配置 :14 |
20 |
|
操作失误 :5 |
|||
|
未知 :1 |
|||
|
未知 |
3% |
未知 :8 |
8 |
亚健康状态案例比例
亚健康状态监控让分布式存储运行更稳定
基于对亚健康状态的表象根因等分析与研究,浪潮在分布式存储上实现了亚健康状态监控功能,对硬件亚健康状态、系统亚健康状态以及网络亚健康状态的实时监控,当系统发现运行过程中存在亚健康状态时,可快速定位亚健康状态的原因、上报故障、并对亚健康的部件进行必要的处理(如尝试恢复、隔离部件等),最大限度的降低亚健康状态对存储系统的影响。
浪潮分布式存储AS13000配置了亚健康状态监控之后可以进行亚健康状态监控告警服务的同时还具有诸多优势。
首先,精准定位。亚健康状态的场景复杂,症状、根因众多,检测难度大。亚健康状态监控系统通过建立硬件亚健康检测、网络亚健康检测以及系统亚健康检测的机制,有效的覆盖了亚健康状态的各种检测场景,再加上检测信息的精准分析,能更精准的定位亚健康状态。
其次,快速处理。存储系统长期以亚健康状态的状态运行,会影响整体性能,监控功能可以在短期内发现亚健康状态,并及时做出必要的处理。以往为了确保系统运行的稳定性,运维人员预计需要每周执行一次巡检脚本,对整个集群进行健康巡检。这种方式一方面时效性差,平均3-4天才可以发现问题;另一方面是巡检脚本检测并不全面。亚健康监控可以150秒内发现网络亚健康状态并进行网口隔离处理、30分钟内发现系统亚健康状态并告警、60分钟内发现磁盘温度异常并告警等;平均发现系统亚健康状态并处理的时间缩短了四分之三,并且检测的项目更全面、结果更准确。

具备亚健康状态监控功能的分布式存储AS13000,已经在金融、通信、教科研、医疗等行业规模部署,在运行过程中亚健康状态监控功能快速响应机制,降低了亚健康状态对存储系统的影响与运维成本,保障了企业业务稳健运行,让企业轻松应对数字经济时代的海量数据挑战。
好文章,需要你的鼓励
英特尔第三季度财报超华尔街预期,净收入达41亿美元。公司通过裁员等成本削减措施及软银、英伟达和美国政府的大额投资实现复苏。第三季度资产负债表增加200亿美元,营收增长至137亿美元。尽管财务表现强劲,但代工业务的未来发展策略仍不明朗,该业务一直表现不佳且面临政府投资条件限制。
美国认知科学研究院团队首次成功将进化策略扩展到数十亿参数的大语言模型微调,在多项测试中全面超越传统强化学习方法。该技术仅需20%的训练样本就能达到同等效果,且表现更稳定,为AI训练开辟了全新路径。
微软发布新版Copilot人工智能助手,支持最多32人同时参与聊天会话的Groups功能,并新增连接器可访问OneDrive、Outlook、Gmail等多项服务。助手记忆功能得到增强,可保存用户信息供未来使用。界面新增名为Mico的AI角色,并提供"真实对话"模式生成更机智回应。医疗研究功能也得到改进,可基于哈佛健康等可靠来源提供答案。同时推出内置于Edge浏览器的Copilot Actions功能,可自动执行退订邮件、预订餐厅等任务。
纽约大学等机构联合开发的ThermalGen系统能够将普通彩色照片智能转换为对应的热成像图片,解决了热成像数据稀缺昂贵的难题。该系统采用创新的流匹配生成模型和风格解耦机制,能适应从卫星到地面的多种拍摄场景,在各类测试中表现优异。研究团队还贡献了三个大规模新数据集,并计划开源全部技术资源,为搜救、建筑检测、自动驾驶等领域提供强有力的技术支撑。