尽管云基础设施和超大规模数据中心的趋势使企业越来越依赖第三方进行 IT 运营,但据 Uptime Institute 最新调查显示,北美地区仍有 48% 的组织依赖本地数据中心。
对这些组织而言,投资和维护高可用性对确保关键业务系统和服务的正常运行至关重要。
作为业务重点,高可用性对维持业务连续性、最大化客户满意度和最小化财务损失都至关重要。无论是从零开始还是负责现有系统和关键基础设施,实现高可用性都必须掌握三个关键步骤:
保护物理设施 构建弹性基础设施 选择合适的运营工具
物理数据中心安全性
解决组织数据中心所在设施的安全漏洞往往是高可用性中被忽视的一个方面。
无论数据中心是独立建筑还是更大园区内的专用空间,如果 IT 基础设施面临恶意人为入侵、环境故障、断电或其他灾难等问题,那么对弹性 IT 架构、优秀运营工具和详细响应策略的投资都将失去意义。
为了防范和最小化此类可避免的非网络事件的风险,需要采取以下物理安全措施:
实时监控的安防摄像头 限制授权人员进入的强访问控制 可靠的电力基础设施,包括发电机和不间断电源 (UPS) 基于气体的消防系统,如 FM-200 具备温度和湿度控制的环境监控
弹性 IT 架构
IT 基础设施冗余是高可用性的基石。通过识别潜在的关键单点故障,并在可能的情况下确保有故障转移到备用资源的选项,可以降低事故发生时的停机风险。冗余应该覆盖硬件和软件层面。
实施故障转移集群、弹性网络路径、使用 RAID 的存储冗余以及用于灾难恢复的异地数据复制都是行之有效的策略。采用混合或多云方案也可以减少对单一服务提供商的依赖。
如果运营异地数据中心,确保其不依赖于主园区相同的电源。务必制定包含本地和异地备份存储的灾难恢复和业务连续性计划。
高可用性运营工具
在保护数据中心和构建弹性 IT 基础设施之后,现在需要确保一切按需运行。这意味着要选择能够让你按计划响应事件和执行响应方案的工具,尽可能实现自动化,并在出现问题时能在压力下做出正确决策。
由于好的决策需要好的数据,第一步是投资于擅长发现网络资产、摄取数据并更新配置管理数据库 (CMDB) 的 IT 运营管理工具。
以准确数据为基础,应用性能监控 (APM) 工具是深入了解网络系统健康状况的好选择。APM 和网络监控平台为 IT 管理人员提供及时决策所需的信息,用于维护、负载均衡和事件响应等运营问题。这对维持高可用性 (HA) 很重要,因为糟糕的决策会增加因可预防的系统故障导致服务中断的风险。
无论基础设施是本地、云端还是混合型,实现高可用性的另一个关键组件是建立故障转移集群,以促进甚至自动化服务和工作负载向备用资源的迁移。无论是硬件 (基于 SAN) 还是软件 (无 SAN),集群都支持服务无缝故障转移到备用资源,确保在性能严重降级或中断事件发生时的业务连续性。
当今企业倾向于选择无 SAN 高可用性集群,因为它在更依赖云系统和服务、虚拟机和软件的 IT 环境中运行更灵活。无 SAN 集群提供与传统 SAN 集群相同的功能,但更灵活且成本更低。此外,无 SAN 集群支持本地、云端或混合基础设施,可以支持地理分布式数据中心,这是网络弹性和灾难规划中的重要考虑因素。
保持服务在线
随着超大规模数据中心、云工作负载回迁和数字转型等趋势全面展开,当今的 IT 运营管理人员面临诸多变化。
然而,保持服务对用户可用并避免停机仍是一项始终如一的要求。通过包含物理安全、弹性架构和高可用性的规划,你可以让用户和客户保持满意。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。