8月24日,浪潮信息正式发布大模型智算软件栈OGAI。OGAI (Open GenAI Infra)“元脑生智”,是为大模型业务提供AI算力系统环境部署、算力调度保障及模型开发管理能力的全栈全流程的智算软件栈。OGAI由浪潮信息基于大模型自身实践与服务客户的专业经验而开发,旨在为大模型研发与应用创新全力打造高效生产力,加速生成式AI产业创新步伐。

大模型是当前通用人工智能产业发展创新的核心技术。目前国内已发布的生成式AI模型超过了100个,“百模争秀”的格局初现。但大模型从研发到应用的各环节中,依然面临诸多挑战,如大模型算力的系统全栈问题、兼容适配问题、性能优化问题等。
OGAI是浪潮信息从当前大模型算力建设、模型开发和应用落地的实际需求出发,秉承全栈全流程、算力充分释放、实战验证提炼的设计原则打造而成。OGAI由5层架构组成,从L0到L4分别对应基础设施层的智算中心OS、系统环境层的PODsys、调度平台层的AIStation、模型工具层的YLink和多模纳管层的MModel。

L0层智算中心OS:面向大模型算力服务的智能算力运管平台,满足多租户以裸金属为主的弹性AI算力运管需求。其中,高效的裸金属服务支持分钟级部署上千规模裸金属节点并按需进行弹性扩展,实现异构计算芯片、IB、RoCE高速网络、高性能存储等环境一键获取,并实现计算、网络、数据隔离以保障业务安全。
L1层PODsys:开源、高效、兼容、易用的智算集群系统环境部署方案。聚焦智算集群部署场景,从OS、驱动到系统监控可视化、资源调度等集群系统环境要素全面覆盖,选用最稳定和广泛兼容的软件版本,通过一系列脚本工具简化部署过程,缩短算力上线周期,并可向企业用户提供实施安装服务和集群性能校准的专家服务。
L2层AIStation:面向大模型开发的商业化人工智能算力调度平台。针对大模型训练中常见的训练中断难题,可实现训练异常快速定位,断点自动续训:通过快速定位芯片、网卡、通讯设备异常或故障,实现全局训练暂停保持,热备算力自动弹性替换,健康节点快速CheckPoint读取,实现断点自动续训。
L3层YLink:面向大模型数据治理、预训练、微调的高效工具链。聚焦于大模型的数据治理、预训练、微调等开发过程,集成了浪潮信息在大模型研发中的自研工具和开源工具,如数据处理工具包(Y-DataKit)、大模型训练工具包(Y-TrainKit)和大模型微调工具包(Y-FTKit)等等,通过这些多样且完善的工程化、自动化工具,加速大模型的训练和开发效率。
L4层MModel:提供多模型接入、服务、评测等功能的纳管平台。核心组件包括数据集管理、模型纳管和评测,可以方便开发者和研究人员更好地管理多版本、多类型的基础大模型与任务模型,并通过多样化的评测数据集与评测任务,对多个模型进行生成准确率、推理延迟、推理稳定性等指标进行全面评估。
浪潮信息高级副总裁、AI&HPC总经理刘军表示:“OGAI提供完善的工程化、自动化工具软件堆栈,将帮助更多企业顺利跨越大模型研发应用门槛,充分释放大模型创新生产力。浪潮信息将通过智算系统软硬件高度协同进行持续创新,持续培育繁荣元脑生态,推动实现‘助百模,智千行’,加速生成式AI产业创新。”
好文章,需要你的鼓励
IBM在量子开发者大会上发布两款新型量子处理器。Quantum Nighthawk配备120个量子比特和218个新一代可调耦合器,比前代产品增加20%耦合器,可执行复杂度提升30%的电路。Quantum Loon是实验性处理器,展示了实现极低错误率和高效错误恢复的所有组件。IBM计划2026年底确认首批量子优势案例,并于2029年交付大规模容错量子计算平台。
斯坦福大学等机构联合开发的CIFT系统首次解决了机器人"近视眼"问题,通过精确控制真实数据和合成数据的混合比例,让机器人在陌生环境中的表现提升54%以上。该系统包含多视角视频增强引擎MVAug和数据组合优化策略,能够预测数据失效的"去相干点",确保机器人学习真正重要的任务特征而非环境表象,为实用化通用机器人奠定了重要基础。
VDURA数据平台第12版本通过扩展元数据计算、添加系统级快照功能和支持叠瓦磁记录硬盘来降低每TB成本。新版本引入弹性元数据引擎,可动态扩展元数据节点,将元数据操作性能提升最多20倍。快照功能支持即时的节省空间的数据集时点副本。SMR硬盘支持通过智能写入放置引擎,在不影响吞吐量的情况下每机架增加25-30%容量。
香港中文大学研究团队开发的Search-R3系统成功解决了大语言模型推理与搜索分离的问题,通过两阶段训练让AI在深度思考过程中直接生成搜索向量。该系统在多个领域测试中显著超越现有方法,特别是启用推理后性能提升明显,为AI系统设计提供了推理与搜索统一的新范式,展现了从专门化向通用化发展的重要方向。