11月4日-6日,在开放基础设施峰会(Open Infrastructure Summit)上,浪潮联合英特尔发布了《基于500节点大规模单一集群行业云部署和性能优化白皮书》(以下简称《白皮书》),为社区成员与用户构建规模更加庞大的OpenStack单一集群,提供了详细且经过实践检验的指导规范。
《白皮书》指出,当前,人工智能、物联网等新技术应用正带来数据量的快速增长与数据处理方式的变革,行业云已经成为行业用户平衡安全性、敏捷性等需求,获取IT基础设施服务的重要方式。随着越来越多的数据与应用被转移到云端,行业云的规模正在变得越来越大,并且成为传统行业用户在数字经济时代完成转型的关键性数字基础设施之一。
目前,电信、交通、能源、金融等行业的云计算规模正不断提升,对大规模和超大规模行业云部署的需求更加迫切,诸如纪念品发行、新金融产品上线、城市轨道交通系统等具备强周期性的业务系统,对云平台的高性能、高可用特别是高并发有着更高的要求。在这些业务场景的驱动下,行业用户对单一集群规模提出了更高的需求,希望可以通过部署更多的虚拟机、容器等资源以支撑更多工作负载,进一步提升IT资源利用率并显著降低运维管理复杂度。
《白皮书》指出,单一集群规模提升带来的好处显而易见,其能够实现更高、更灵活的工作负载,提升云平台的伸缩性并显著降低管理复杂度。
不过,目前基于开源技术构建大规模行业云仍面临诸多挑战。首先,开源应用的快速增长带来了工作负载的提升,而日益丰富的开源技术堆栈则进一步扩大了云平台性能的上下限差距,优化效果的好坏直接关乎性能表现。这一点在大规模行业云中影响尤为突出,因为行业云基础设施需要提供超高的数据处理与存储性能,以满足关键应用的需求,并为数据管理、模型训练、模型部署等高负载应用提供支撑。
其次,敏捷基础设施成为重要趋势,大规模的行业云将千倍放大单节点的成本支出,因此,对于性能进行持续优化、并增强成本的控制能力至关重要,需要在软件定义层面实现性能、QoS、TCO的轻松调配。
最后,在开源技术日益活跃的全球性趋势下,基础设施的开放性至关重要。开源项目正在推动和加速尖端创新,开源技术是对开发和实施尖端功能产生重大影响的顶级趋势。有调研显示,在中国,已经应用了开源技术的企业占比达到86.7%,有计划应用开源技术的企业占比10.6%,开源技术已经被企业普遍接受。在这一趋势下,将更多的开源技术融合到统一的云平台中变得更加重要且迫切,而这也是OpenStack社区一直为之努力的重要方向。
目前,基于开源OpenStack的云平台所采用的集群规模普遍较小,500个节点的规模已经超出了OpenStack社区版本负载的峰值,尝试在500个节点上成功部署OpenStack必须进行大量复杂的测试和优化。今年9月,浪潮云海InCloud OpenStack 5.6(ICOS 5.6)成功完成单一集群规模达500节点的测试,这是目前基于OpenStack Rocky版本进行的单一集群全球最大规模实践。
测试结果显示,在高密度、高并发环境测试中,在系统已有20000虚拟机负载的情况下,成功完成负载60%环境下的1000并发虚拟机创建,空载环境下2000并发虚拟机创建。同时,测试验证了大规模集群在全部节点数据库灾难恢复、全部控制节点断电等极端情况下的高可用性,最大程度减少业务中断。
在高性能方面,浪潮从硬件层、操作系统层、网络协议栈、Hypervisor层、OpenStack API服务、数据库以及消息队列、分布式存储、GuestOS等进行的全栈优化,系统性能可以满足大规模行业云应用对于负载的苛刻需求。测试结果显示,测试平台单虚拟机4K随机读写IOPS能力可满足Oracle、PGSQL等绝大多数核心数据库场景应用,顺序读写吞吐量可满足高清视频监控等负载的读写要求,并且实现了48小时内时统丢包小于10的负7次方,组播丢包率为0,能够满足对实时通信有苛刻要求的用户需求。
此外,浪潮云海ICOS 5.6也实现了高效的云平台软环境部署交付,10小时完成500台服务器节点系统部署、5小时部署323个OpenStack节点、3小时部署77个分布式存储节点、1小时完成100个计算节点扩容改配,单日可交付500+节点。
《白皮书》强调,随着云与5G、人工智能、物联网等技术的持续融合,云计算的边界与内涵也将随之不断拓展,全栈云在未来会成为一种“常态”。OpenStack作为事实上的开源云计算标准,在技术兼容性上具备先天优势,将会成为开放基础设施最重要的云平台之一。
目前,浪潮云海OS进一步强化全栈云能力,可实现全栈应用承载、全栈基础设施构建与管理。其中,浪潮云海ICOS已具备单集群设计规格超1000节点能力,并已在广电等客户中成功部署了单集群1000+节点的大型行业云。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。