Splunk中国区总经理严立忠
如今,无论是从事IT运维、敏捷开发,还是DevOps(开发运营),甚至站点可靠性的工程师们(SRE),都在不断提及一个概念——可观察性(Observability)。为什么他们都在关注可观察性?可观察性在IT领域有哪些深层的含义?在开始探讨这些问题之前,我们需要先了解可观察性到底是什么?
理论上来讲,可观察性是从外部输出知识中推断所获得,可理解为衡量一个系统内部状态的方法。如同IT领域的众多新概念(比如DevOps), 可观察性第一次被提出是在工业领域。当时的可观察性被描述成为一种系统的外部监测属性,比如设备操作者可以查看系统中隐藏的各个流程。
举个例子,水处理厂的操作员如果无法看到水管的内部状况,就无法监测到水的正常流动,流动的方式,以及水质的干净程度。但在管道内可以添加可观察性的工具——流量计和传感器后,状况就截然不同,这些工具将通过遥测连接到仪表板,帮助操作员能够完全掌握管道中水流的情况,并及时根据状况进行调整,大大提高了工作效率。
可观察性也已被快速地引入到 IT 领域,并广泛应用于软件服务行业。尤其是在软件开发工程师编写代码的时候,所使用是就是具有可观察性的测量和遥测应用程序。它可以帮助运维团队获得:
随着AI技术的涌现,企业要想获得商业的成功,只靠新的数据、图表、KPI或者项目仪表盘是远远不够的。可观察性才是企业获得真正商业价值的“抓手”。企业无论在面对实时问题还是事件分类,关闭DevOps反馈回路亦或提前预防问题,都要收集可观察性的数据,并与其它监测的数据一起进行分析处理,并运用机器学习的方式生成自动响应,那么将监测与可观察性、机器学习和预测分析的高级数据集合后,则就拥有了Gartner所定义的“AIOps”,即在AI时代,让IT运维具备机器学习和算法的能力。
当AIOps有了可观察性数据后,可帮助企业:
DevOps中一个重要的概念是强调研发与运维的无缝配合形成一个整体,能给企业带来更大的业务灵活性,使企业能够更快地响应客户行为、市场变化和新技术。而可观察性带来了企业团队文化的转变,在可观察性的语境下,研发是主体,需要主动考虑如何将应用的关键指标以什么形式暴露出去;而之前大部分研发只有在应用出现故障的时候,才会考虑在什么位置加个日志,将研发与运维真正协作统一。
作为一个运维智能平台,Splunk是机器数据的引擎。Splunk通过监控和分析客户的点击流、交易数据、信息安全事件和网络活动,Splunk帮助客户获得机器生成数据中富有价值的运维智能。它使开发者能够直接看到生产环境中的数据,而无需访问生产机器,能够协助用户进行DevOps过程,包括持续的集成和资源配置。
对于交付网络式服务的云初创企业来说,可观察性带来了全新的活力。而对于传统IT运维商来说,尤其是大型企业,可观察性的实现依然需要突破阻力。作为传统监测的补充,可观察性标志着IT运维和软件服务交付的一个新时代的到来,助力企业实现真正的商业和技术融合。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。