OpenStack柏林峰会于11月12日-15日举行,9月发布的Rocky版本成为本届峰会探讨的热点之一。作为OpenStack基金会的黄金成员,浪潮也于今日宣布将升级InCloud OpenStack至Rocky版本,在保留计算资源统一管理、智能运维与大规模监控等诸多特性的基础上,通过改进的Ironic裸机控制器和新的Cyborg接口,提供更加高效的裸机云与AI云部署能力。
Rocky是OpenStack基金会非常看重的版本,增加了OpenStack对很多新兴技术的兼容,包括人工智能、边缘计算和软件容器等。从Rocky版本中可以看出OpenStack基金会打造"开放基础设施"的决心,以期实现"让世界运行在OpenStack之上"的终极目标。
浪潮信息云计算产品部总经理蒋永昌表示:"随着应用的繁荣与新兴技术的不断涌现,云计算的环境趋向更加多元与复杂,一个开放的基础设施变得至关重要,用户需要实现对多类型云基础架构的管理。浪潮InCloud OpenStack R版本增强了祼机云的管理能力,增加了对异构加速设备的支持,将为人工智能、高性能计算、NFV等新兴业务场景提供安全可靠的云基础设施平台。"
InCloud OpenStack R版本提供高效裸机云
裸机云已然成为OpenStack社区新的开发重点之一。OpenStack最新的用户调查初步显示,大约20%至25%的客户正在将Ironic裸机插件用于生产中的OpenStack,相比2017年的15%和2016年的11%有所上升。而在大型用户实例上,雅虎大规模运行Ironic插件,管理着超过100万个内核,运行各种应用程序。
裸机的盛行与高性能计算、人工智能、NFV等业务的兴起息息相关,这些新兴业务要么对设备性能有着较高的要求,要么尚未实现虚拟化。浪潮InCloud OpenStack R版本将能够为用户提供BIOS设置接口,可执行硬件初始化等诸多配置,并且允许大规模集群将其镜像加载到主内存而不是本地存储,这一功能会大大提升裸机部署效率。
InCloud OpenStack R版本开启AI与云融合
AI与云的融合已经在线上推理(Inference)场景中实现规模化部署,全球七大超级云计算数据中心包括IBM、Facebook、微软、AWS以及百度、阿里、腾讯都采用了FPGA服务器。
Rocky版本的Cyborg接口现在允许从OpenStack框架内访问和重新编程FPGA,包括用于以编程方式自动执行此操作的REST API。InCloud OpenStack R版本将重点强化对更多异构计算加速设备的支持,包括GPU、FPGA等,可以支持 GPU 透传、FPGA直通、vGPU等,同时通过网卡直通功能增加虚拟机网络访问速度。
InCloud OpenStack R版本持续强化管理与运维特性
InCloud OpenStack R版本将持续强化管理与运维的诸多特性。在计算资源统一管理上,增强对虚拟机、裸机、容器资源的统一管理,满足不同应用场景的对计算资源的差异需求:裸机可以提供数据库、大数据等高性能计算场景,容器可以有效帮助客户解决快速开发部署、微服务等业务场景,云主机可以为用户提供传统虚拟化服务。而在智能运维上,针对客户日常运维面临告警信息繁多,复杂的痛点,增强了智能运维能力,将支持根因分析、故障预测,简化运维,提升效率。此外,InCloud OpenStack R版本也将增强大规模监控能力,一方面可保证服务的高可用、高性能、可扩展,另一方面可定制灵活、用户友好,提高异常处理效率。此前,在为某客户部署的云基础设施中,浪潮InCloud OpenStack实现了对近千节点的监控,虚拟机10000+,性能数据采集周期10秒,服务数据周期1-5分钟,每天集群约产生50亿项监控数据。
Rocky版本或许将成为OpenStack发展中的重要里程碑,而浪潮InCloud OpenStack对这一版本的支持,也显示出浪潮致力于打造开放、融合、安全、智能云基础设施的决心与行动。未来,通过全新的InCloud OpenStack R版本,浪潮将让云与更多新兴技术及应用融合,促进全球云生态的繁荣和可持续发展。
好文章,需要你的鼓励
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
Meta FAIR团队发布的CWM是首个将"世界模型"概念引入代码生成的32亿参数开源模型。与传统只学习静态代码的AI不同,CWM通过学习Python执行轨迹和Docker环境交互,真正理解代码运行过程。在SWE-bench等重要测试中表现卓越,为AI编程助手的发展开辟了新方向。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
卡内基梅隆大学研究团队发现AI训练中的"繁荣-崩溃"现象,揭示陈旧数据蕴含丰富信息但被传统方法错误屏蔽。他们提出M2PO方法,通过改进数据筛选策略,使模型即使用256步前的陈旧数据也能达到最新数据的训练效果,准确率最高提升11.2%,为大规模异步AI训练开辟新途径。