物联网出现很久之前,电脑还不够个人化,手机、冰箱和汽车也不够智能的年代,你是否记得电视上曾经反复播放着某品牌机油滤清器的广告?
高档的机油滤清器的价格比普通品牌高出将近一倍,这对于用户来说无疑十分昂贵。因而这种高档品 牌的产品首次进入市场时曾经遭遇用户非常严重的抵触情绪。然而,随着它的卓越技术逐渐提高了汽车的性能,同时有效减小故障发生的几率以及避免了昂贵的检修 费用。于是毫无疑问,相较于更换汽车引擎,人们还是更倾向于更换机油滤清器。
于是该产品逐渐获得了用户的青睐,并最终占据了市场的统治地位。
这个旧时代的营销故事所带给我们的启示完全可以适用于今天关于数据中心基础设施管理(DCIM)解决方案的一些误解和错误逻辑。
误解一:DCIM太昂贵
英特尔委托Redshift调研机构对200位来自美国与英国的数据中心管理者进行了咨询。调查结果显示,最大的窘境是,仍有43%的数据中心管理者还在依靠手工方法替代DCIM工具进行产能规划与预测。
随着我们进入数字时代,微软的Excel表格软件,甚至传统的测量卷尺仍然在很多基础设施管理者的工具包中占据着非常重要的地位,这似乎有悖常理。但事实的确如此,如今仅有55%的数据中心管理者在使用DCIM平台。部署DCIM方案最大的反对原因就是人们的感知成本,有46%的受访者表示,他们认为DCIM的实施费用过于昂贵。
乍一看,数据中心管理者对于成本的顾虑似乎合情合理。但是,考虑到DCIM工具可以为管理者提供有效信息用来识别运营问题,并帮助确定真实运营成本、隐性成本以及系统中断的真实原因,因而针对DCIM任何基于成本的反对都是对人们的误导。要知道,受访的118家数据中心都可以清晰的量化其每次运营中断的平均成本竟已高达28900美元!
别搞错了。无论是由于硬件故障、电源供应或散热问题,大型数据中心不可避免会在其生命周期的某个阶段面临运营中断和停机故障。只是那些已经部署DCIM分析工具来进行产能规划和散热效能监测的数据中心管理者可以清楚的计算出运营中断对于业务的损失成本,而与此同时没有部署DCIM的数据中心管理者仅仅只有14%的比例能够做到这一点。
此外,由于时间就是金钱,据统计数据中心运营中断所需要的平均恢复时间接近8个小时。值得注意 的是,部署了DCIM的数据中心中有21%的比例可以有效的把恢复时间控制在2个小时以内。而那些没有使用DCIM工具的数据中心则只有11%的比例可以 做到这一点。比例相差将近2倍!
误解二:DCIM的实施需要更多的时间和资源
有35%的数据中心管理者表示,采用手工的方法进行数据中心产能规划和预测的原因是担心缺乏必要的时间和资源实施部署更为自动化的方案。这个理由从表面上看又似乎很有说服力。但事实上,有56%采用手工方法的数据中心管理者每月需要投入40%以上的时间来进行产能规划和预测。
数据中心管理者这类自相矛盾的状况体现了一种恶性循环。采用手工方法的数据中心管理者表示缺乏时间和资源部署实施DCIM工具进行产能规划和预测,这正是因为他们的大部分时间都浪费在某些工作上,而这些工作恰恰可以由DCIM自动完成。
误解三:机柜热传感器和电子表格便足以轻松完成机房的散热工作
数据中心的电力消耗非常巨大。根据国家资源保护委员会预估,数据中心的电力消耗到2020年时将达到年均大约1400亿千瓦时,这相当于50个发电厂的年发电量,每年仅电费一项即需要支出130亿美元。除了服务器运行的供电费用外,散热也需要消耗很大一部分电能,因此有效提高散热效率成为节省运行总成本的必要手段。
57%的受访数据中心声称,他们在过去一年中经历了热能相关的挑战,并因此严重影响了运营效 率。63%的数据中心目前正在使用DCIM分析工具帮助优化散热效率,而有多达20%的数据中心目前还仅仅依靠机柜热传感器和电子表格来完成散热工作。没 有使用DCIM分析工具的数据中心不太可能实施热点审计,更不可能完成计算流体动力学(CFD)的模拟工作。
CFD功能是DCIM解决方案的核心功能,可以通过实时监控的信息不断提高和调整散热策略和空调选择。拥有CFD能力的DCIM系统将对数据中心的运营产生直接而积极的影响。
结论
数据中心管理者为了正确的运营决策需要收集精确的数据信息,包括能耗、热量、气流和使用率。随着DCIM工具的普及以及自动化控制水平的日渐提高,数据中心管理者的运营 效率逐渐提高,及时应对运营中的常见挑战,例如产能规划与分配,以及散热效率等。任何有关DCIM投资的成本效益分析都应该考虑到节约资源、减少宕机时间 和提高散热效率,这些因素最终将会对投资回报率产生积极的影响。
换言之,汲取自本文开头所提到的旧时代机油滤清器的经验在今天的数字时代依然适用。
更多Intel数据中心管理产品信息敬请登录:
http://www.intel.cn/content/www/cn/zh/software/data-center-overview.html ,
或者发送邮件至dcmsales@intel.com 与我们联系。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。