11月4日-6日,在开放基础设施峰会(Open Infrastructure Summit)上,浪潮联合英特尔发布了《基于500节点大规模单一集群行业云部署和性能优化白皮书》(以下简称《白皮书》),为社区成员与用户构建规模更加庞大的OpenStack单一集群,提供了详细且经过实践检验的指导规范。
《白皮书》指出,当前,人工智能、物联网等新技术应用正带来数据量的快速增长与数据处理方式的变革,行业云已经成为行业用户平衡安全性、敏捷性等需求,获取IT基础设施服务的重要方式。随着越来越多的数据与应用被转移到云端,行业云的规模正在变得越来越大,并且成为传统行业用户在数字经济时代完成转型的关键性数字基础设施之一。
目前,电信、交通、能源、金融等行业的云计算规模正不断提升,对大规模和超大规模行业云部署的需求更加迫切,诸如纪念品发行、新金融产品上线、城市轨道交通系统等具备强周期性的业务系统,对云平台的高性能、高可用特别是高并发有着更高的要求。在这些业务场景的驱动下,行业用户对单一集群规模提出了更高的需求,希望可以通过部署更多的虚拟机、容器等资源以支撑更多工作负载,进一步提升IT资源利用率并显著降低运维管理复杂度。
《白皮书》指出,单一集群规模提升带来的好处显而易见,其能够实现更高、更灵活的工作负载,提升云平台的伸缩性并显著降低管理复杂度。
不过,目前基于开源技术构建大规模行业云仍面临诸多挑战。首先,开源应用的快速增长带来了工作负载的提升,而日益丰富的开源技术堆栈则进一步扩大了云平台性能的上下限差距,优化效果的好坏直接关乎性能表现。这一点在大规模行业云中影响尤为突出,因为行业云基础设施需要提供超高的数据处理与存储性能,以满足关键应用的需求,并为数据管理、模型训练、模型部署等高负载应用提供支撑。
其次,敏捷基础设施成为重要趋势,大规模的行业云将千倍放大单节点的成本支出,因此,对于性能进行持续优化、并增强成本的控制能力至关重要,需要在软件定义层面实现性能、QoS、TCO的轻松调配。
最后,在开源技术日益活跃的全球性趋势下,基础设施的开放性至关重要。开源项目正在推动和加速尖端创新,开源技术是对开发和实施尖端功能产生重大影响的顶级趋势。有调研显示,在中国,已经应用了开源技术的企业占比达到86.7%,有计划应用开源技术的企业占比10.6%,开源技术已经被企业普遍接受。在这一趋势下,将更多的开源技术融合到统一的云平台中变得更加重要且迫切,而这也是OpenStack社区一直为之努力的重要方向。
目前,基于开源OpenStack的云平台所采用的集群规模普遍较小,500个节点的规模已经超出了OpenStack社区版本负载的峰值,尝试在500个节点上成功部署OpenStack必须进行大量复杂的测试和优化。今年9月,浪潮云海InCloud OpenStack 5.6(ICOS 5.6)成功完成单一集群规模达500节点的测试,这是目前基于OpenStack Rocky版本进行的单一集群全球最大规模实践。
测试结果显示,在高密度、高并发环境测试中,在系统已有20000虚拟机负载的情况下,成功完成负载60%环境下的1000并发虚拟机创建,空载环境下2000并发虚拟机创建。同时,测试验证了大规模集群在全部节点数据库灾难恢复、全部控制节点断电等极端情况下的高可用性,最大程度减少业务中断。
在高性能方面,浪潮从硬件层、操作系统层、网络协议栈、Hypervisor层、OpenStack API服务、数据库以及消息队列、分布式存储、GuestOS等进行的全栈优化,系统性能可以满足大规模行业云应用对于负载的苛刻需求。测试结果显示,测试平台单虚拟机4K随机读写IOPS能力可满足Oracle、PGSQL等绝大多数核心数据库场景应用,顺序读写吞吐量可满足高清视频监控等负载的读写要求,并且实现了48小时内时统丢包小于10的负7次方,组播丢包率为0,能够满足对实时通信有苛刻要求的用户需求。
此外,浪潮云海ICOS 5.6也实现了高效的云平台软环境部署交付,10小时完成500台服务器节点系统部署、5小时部署323个OpenStack节点、3小时部署77个分布式存储节点、1小时完成100个计算节点扩容改配,单日可交付500+节点。
《白皮书》强调,随着云与5G、人工智能、物联网等技术的持续融合,云计算的边界与内涵也将随之不断拓展,全栈云在未来会成为一种“常态”。OpenStack作为事实上的开源云计算标准,在技术兼容性上具备先天优势,将会成为开放基础设施最重要的云平台之一。
目前,浪潮云海OS进一步强化全栈云能力,可实现全栈应用承载、全栈基础设施构建与管理。其中,浪潮云海ICOS已具备单集群设计规格超1000节点能力,并已在广电等客户中成功部署了单集群1000+节点的大型行业云。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。