随着云计算、大数据、互联网业务的蓬勃发展,数据中心的规模急剧扩张。作为承载云业务的核心设 施,数据中心集中了计算、存储和网络设备,业务重要级别高,资源分布集中。随着数据中心规模越来越大,运维面临巨大挑战:传统以人工操作为主的管理模式不 仅难度大,且成本高昂,数据中心迫切需要灵活便捷的自动化运维解决方案。
强强联合,数据中心网络自动化方案解决部署难题
华为与IT自动化领导厂商Puppet强强联合,共同研发了数据中心网络自动化部署解决方案。 Puppet CEO和创始人 Luke Kanies评价到,“传统网络设备相对封闭,第三方软件很难在这些设备上运行、并支持用户使用统一的语言进行定制开发。华为则以开放的姿态,与 Puppet联手为用户带来灵活高效的网络自动化部署体验。”
数据中心网络自动化部署解决方案由三部分组成:Puppet Master、Puppet Agent、以及华为CloudEngine系列数据中心交换机。CloudEngine交换机提供VRP(Versatile Routing Platform,通用路由平台)操作系统和开放系统, Puppet Agent安装在CloudEngine交换机的开放系统中,与Puppet Master保持通信。通过Puppet Master和Puppet Agent,管理员可将网络配置脚本下发到多台CloudEngine交换机,实现批量部署。
图一:数据中心网络自动化解决方案架构
数据中心网络自动化解决方案为网络管理员提供了简单灵活的管理平台,通过软件脚本完成灵活、快速、自动配置,实现网络部署效率提升30倍:
l支持管理员使用简单易上手的Ruby语言编写的统一脚本,屏蔽了不同厂商设备配置语言的差异性,使用简单、配置高效。
l通过Puppet可以实现CloudEngine交换机的批量自动化配置,大幅度提升效率,降低错误配置率。
lPuppet可以时同步配置信息,时刻保持配置的准确性与更新的及时性。
l引入DevOps模式,摆脱传统网络业务开发模式,可以根据用户需求快速上线新业务。
图二:数据中心自动化解决方案价值
开放合作,持续打造SDN开放生态
目前,该解决方案已经在数家大型互联网数据中心通过了POC测试,用户通过Puppet软件可以批量自动化调度和配置华为CloudEngine系列数据中心交换机和其他网络产品,实现网络与IT资源的统一管理。该数据中心网络自动化解决方案是华为与Puppet合作的阶段成果,也是华为践行SDN开放生态链战略的体现。
图三:华为敏捷数据中心SDN开放生态链
除了Puppet外,华为已与全球多家知名IT厂商及标准组织在云数据中心各个领域展开合作:
l云平台层面:通过华为网络控制器Agile Controller和CloudEngine数据中心交换机的开放API接口,实现与VMware、微软、OpenStack等主流厂商或标准组织云平台的无缝对接,统一管理网络与IT资源。
l控制器和管理工具层面:CloudEngine和Agile Controller可实现与第三方控制器VMware NSX和Brocade Vyatta的无缝对接,实现业务统一编排和自动化运维管理。
l网络设备层面:Agile Controller可基于Open API和OpenFlow等南向接口,与业界领先的应用交付网络厂商F5无缝集成,联合发布双活数据中心解决方案。同时,基于intel的DPDK(数据 面开发包)、SRIOV(硬件虚拟化方案)和Sensory(模式识别算法),华为可大幅提升数据中心网络虚拟化性能。
l计算虚拟化层面:Agile Controller可与VMware、微软、KVM等主流计算虚拟化平台的对接,实现数据中心物理网络与虚拟网络的统一联动。
放眼未来,华为将坚持构建SDN开放生态链,与合作伙伴一起,打造更加开放和敏捷的数据中心网络,为客户持续创造价值。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。