ZDNet至顶网服务器频道 07月09日 新闻消息:如何最大化数据中心在整个生命周期内的绩效表现?在IT行业迅猛发展的今天,这已成为每个数据中心所有者和管理者不断思考的问题。对数据中心高效运作之道的探讨,也从最初对设计阶段的单方面关注,逐渐转向对数据中心生命周期内五个阶段的综合剖析。正如良好的基因并不能确保人类一生的健康安乐,只有对数据中心生命周期内五个阶段的全面深入理解,才能成就其高效运作之道。
凭借在数据中心物理基础设施领域的多年经验,全球能效管理专家施耐德电气对此研发出一套覆盖数据中心全生命周期的解决方案,并针对如何最大化数据中心在使用期限的性能,提出了涵盖规划、设计、建设、运行、评估五大阶段的数据中心生命周期管理指南。
第一阶段:规划——过程、系统概念以及选址:什么才是最佳选择?
规划阶段是决定整个数据中心项目成败与否的关键。在此阶段,数据中心所有者及管理者需要搭建起系统架构和项目预算的雏形,为系统选择模型设计,识别并确定有可能影响系统设计的要素。
确定系统概念之后,便可着手准备选址评估。选址评估需要综合考虑:能源成本、税收优惠以及人工成本等财务因素,影响可用性和收益性的风险因素,以及选址和气候因素等。
在数据中心规划阶段,切忌以下9类常见错误:
先选址,后制定设计标准
错误理解PUE
设计标准不合理
错误理解能源与设计标准(LEED)
先进行场地规划,后制定设计标准
估算建造成本能力欠佳
设计方向误入“死胡同”
关注资本支出,而不是总成本
设计过于复杂
第二阶段:设计——归档、要求、合适人选:什么才是设计重点?
将规划结果转化成图表和施工文件,是设计阶段的核心内容。在此阶段,确保合适的人选在合适的时间加入到整个项目中同样重要。设计团队应包含IT和设计工程师,甚至还可能包括建筑师以及机械、电气、给排水工程师。建筑团队由电气、网络、机械、低电压的总包商和分包商组成。数据中心所有者或管理者需负责选择这些团队,并审查所有的设计成果。
第三阶段:建设——建造、培训和调试:项目如何进行?
当专家团队全部就位,建设工作全面启动之时,数据中心所有者及管理者在项目中仍然扮演着重要的角色:关注项目进度、质量性能并进行风险调度,这其中还包括一系列施工文件、建筑许可和项目订单变更的审查与批准。
在建设阶段,施工团队的文件资料与设备供应商的专业技能相互结合,将成为管理团队及员工学习提升的极佳机会。调试过程可带来有价值的文件资料,助力设备运行状况的改善。尽管调试过程并非完全必要,但通过检测整个系统对于外界输入内容以及外界变化的反应,可帮助整个团队更好地了解数据中心的复杂程度。
第四阶段:运行——运行、维护与团队合作:数据中心表现稳定的秘诀是什么?
运行阶段是数据中心生命周期中,历时最长、花费最大的阶段,有时甚至长达20年。
成功的运维(O&M)项目,需要对环境健康与安全、人员管理、应急准备和响应、培训、性能监测,以及对维护、归档、基础设施、质量、能源以及财务等各方面进行有力管理。此外,强烈的使命感和相互协作的团队文化,将推动IT和设备人员更好地各司其职,为整个项目的稳定运行提供保障。
第五阶段:评估——监测、表现和评估:当前状况如何?
监测——这一常常被忽视的阶段,实际上为理解运行人员和基础设施系统如何运作,提供了很多有价值的信息和可行性的建议。持续定期对电源、制冷、空间能力以及使用趋势做分析,能更好地判定基础设施是否满足设计意图。
评估阶段还包括对员工效率和运维项目业绩的考核。对于数据中心所有者和管理者而言,确保审查结果并对审查结果做出相应反应,将确保整个项目更加安全可靠。
数据中心全生命周期管理:长远而势在必行
无论对数据中心在其生命周期的表现有何预期,其所有者和管理者都可以通过了解以上五个阶段的性质、任务和常见问题,为提升数据中心持续可用性及性能做好准备。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。