至顶网服务器频道 08月17日 新闻消息: 服务器作为数据中心的核心组件,承载着数据中心绝大部分计算任务,其可靠性、性能稳定性以及故障之后问题定位的精准度等特性都直接影响着整个系统运行。据Forrester的统计数据,服务器运维成本在IT系统TCO中占比高达70%,因此,一个高效、功能全面的服务器管理工具对于IT系统而言至关重要。
为了实现对服务器全生命周期的360°监控和管理,华为打造了包括一体化融合运维管理产品家族,而eSight Server就是其中的代表。
遍历服务器的一生
全生命周期就是指服务器上电运行一直到结束服务下线的过程,这个过程又可以分为规划、交付、提供服务(日常运维)以及退服下线四个阶段。
首先是规划阶段。根据企业客户上层业务需求,数据中心基础架构确定,服务器的配置规划、网络IP规划等等也随之明确。一个完整而科学的解决方案将为数据中心之后所有的运行维护工作奠定一个良好的基础;第二步是交付阶段,完成服务器采购之后,便开始上电和配置RAID、BIOS等工作,操作系统安装和网络配置也是这一阶段的任务。所有服务器厂商都在追求高效的完成交付工作,让业务尽快上线。
第三阶段是就是服务器提供服务。这一阶段在服务器整个生命周期中时间最长,同时也充满了不确定因素。全方位监控、故障快速而精准的定位和处理是这一阶段最主要的任务。最后,服务器退服,完成资产清退和数据擦除等工作。至此,一台服务器生命周期到达尾声。
全生命周期管理,让IT系统TCO得到质的降低
通过全生命周期管理,企业客户能够以最少的人力和实践成本完成服务器运维工作,进而削减IT系统TCO。
首先,全生命周期管理提高交付效率。如今大规模和超大规模数据中心越来越普及,服务器交付工作也随之变得复杂而繁重。华为eSight采用带外部署方式,可以在24小时内就完成这一工作,带外部署的设计使得服务器配置等交付工作高度自动化,其效率较其他解决方案有了质的提升。在服务器生命周期交付阶段,eSight通过带外部署等技术即能够将IT系统交付效率提高50%。
第二,运维成本降低。服务器上线之后,便进入一个长期的日常运维阶段。在这个阶段,华为eSight全面简化了固件升级等工作。通过基线管理和基于策略的任务升级两个方面策略,企业用户只需设置固件升级时间等基本需求,而其他的操作则完全由eSight自动处理。这样一来就将固件升级的高复杂度降到了最低,无需专业人员投入长期的精力就可以完成日常运维工作,运维成本也随之降低。
监控是日常运维的一个重要工作。在服务器日常运行过程中,全面和深度的监控管理可以第一时间发现故障并进行精准定位,进而最大程度缩短服务器的离线时间,降低运营成本。eSight系统提供了完善的监控、分析、恢复功能,帮助用户及时发现和解决问题,保证企业ICT环境的健康运行。
最后,意外宕机时间降低。服务器故障造成的宕机将会给上层业务系统造成巨大的损失,而精准的故障定位和高效的故障处理,将宕机时间降到最低是服务器全生命周期管理的一大工作。华为eSight服务器管理组件提供的无状态计算特性,实现备件配置自动恢复,借助eSight,服务器意外宕机时间可以降低75%。首先,eSight会将原故障件的所有配置信息,完全复制到新的备件上,其次,当检测到同组设备中有不可修复的故障时,无状态计算可以实现自动倒换,隔离故障设备。
从发现故障到故障诊断和处理是一个争分夺秒的过程,意外宕机时间多一分钟都可能造成直接的经济损失。华为eSight的对故障的精准判断、自动恢复等特性都使得大规模数据中心在出现服务器故障之后能够在最短的时间内得到处理并恢复业务。
华为eSight使得IT系统运维复杂度取得质的降低,在实践过程中,企业客户部署eSight Server之后,由简化管理带来的人力成本节约达37%,由降低意外宕机时间带来的成本节约达42%,此外因避免更多不必要的硬件采购可以削减21%的成本,综合起来看,eSight Server 智能全生命周期运维平台能够给企业客户带来110%的投资回报率。如今,华为eSight Server已经广泛应用于各类规模的企业级IT系统中,在服务器得到全面而细致的管理的前提下,企业客户将更多的精力放置于业务创新和拓展上。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。