2020年11月25日,浪潮云海成功完成全球最大规模单一集群达1000节点的云数智融合实践,并在“远见卓实 践所未见”浪潮云海创新论坛2020做了重要发布,中国信息通信研究院全程跟踪本次测试并给予了高度肯定。
中国信通院云大所测评专家刘如明表示:“浪潮这次大规模测试,实现了三个方面的推动,为大规模IT基础设施建设提供了一定的保障,为行业云数智融合建设提供现实的参考依据,为企业数智化转型提供参考方案。”
从500到1000 从量变到质变
2019年,浪潮云海完成了单一集群大规模达500节点的测试,是当时基于OpenStack Rocky版本的全球最大规模单一集群实践。本次1000节点大规模测试,实现了规模、场景、性能的全面突破,完成了从500节点到1000节点的升级、从量变到质变的升华。
浪潮信息副总裁张东表示:“我们希望通过这样一次测试,检验浪潮云海在大规模场景下平台的敏捷交付、持续优化和智能运维能力,输出平台的高性能、高效率、高可用,基于云平台融合计算、存储、网络、大数据、人工智能产品形成云数智整体解决方案。”
规模更大。1000节点大规模实践相比500节点,在控制节点不变的情况下,集群规模扩大了一倍,存储扩大3倍达到240节点,计算节点增加1.8倍达到720节点,安装部署扩容装配全生命周期时间不变。
场景更全。1000节点大规模从OpenStack测试升级为云数智全栈融合测试,并在云平台软环境部署交付效率上也有优异表现。3天完成1000台服务器、5050节点大数据平台、1000节点容器平台部署,支撑传统业务、云原生业务、大数据业务、人工智能应用等。
性能更高。1000节点大规模测试刷新了SPEC Cloud权威基准测试世界纪录,OpenStack实现3000个虚拟机高并发创建,密度可达5万,30分钟内完成百节点裸机发放;容器实现1000节点管理,3万 POD并发创建,20万POD管理,10万应用管理;存储实现240节点管理,10万卷分布式存储,单节点1万IOPS,单集群240万IOPS;SDN实现2到7层网络10万台虚拟机统一管理配置,流量灵活调度,全面展示了云海OS的极致性能。
1000节点大规模测试作为智算中心操作系统云海OS的领先落地实践,表现了极致扩展、极致性能、极致敏捷、极致可靠。它基于云平台融合计算、存储、网络、大数据、人工智能产品,为用户打造云数智整体解决方案,支撑传统核心应用、新兴大数据、AI应用、云原生应用,并可进行标准一体化交付,加速用户业务创新。
大规模多维度融合测试 云数智融合建设参考
浪潮在多年云平台建设的探索中发现,大型用户的云平台实践普遍面临大规模的挑战。随着内外部用户数量的增长,单一应用和服务的规模变得愈发庞大,需要同时部署数百甚至数千台虚拟机。如果使用多个小规模集群构建云平台,应用和服务的跨集群部署、管理、升级会变得异常困难甚至无法实现,因此对单一集群的规模产生了强烈的需求。
中国信通院云大所副所长栗蔚表示,OpenStack是当前主流的云架构开源项目,逐渐成为高速发展企业和成熟企业基础IT架构的首选解决方案。OpenStack在小规模部署时其性能和稳定性较为稳定,开源特性和良好的社区支持也为小规模部署提供了技术参考。随着企业探索的不断深入,大规模应用的需求越发迫切,OpenStack大规模云集群有待突破。
浪潮云海“全球最大规模单一集群云数智融合实践”是业界最大规模的SPEC Cloud测试,是业界首次大规模多维度融合测试。通过测试,云海OS展示了作为智算中心操作系统的极致能力,再一次扩大了在大规模集群管理方面的领先优势,通过云融数智融合极大丰富了大规模集群的应用场景,进一步完善了行业建设大规模云集群参考设计规范,为企业数智化转型提供重要支撑。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。