《开放加速规范AI服务器设计指南》发布，应对生成式AI爆发算力挑战

8月10日，在2023年开放计算社区中国峰会（OCP China Day 2023）上，《开放加速规范AI服务器设计指南》（以下简称《指南》）发布。

8月10日，在2023年开放计算社区中国峰会(OCP China Day 2023)上，《开放加速规范AI服务器设计指南》（以下简称《指南》）发布。《指南》面向生成式AI应用场景，进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法，将助力社区成员高效开发符合开放加速规范的AI加速卡，并大幅缩短与AI服务器的适配周期，为用户提供最佳匹配应用场景的AI算力产品方案，把握生成式AI爆发带来的算力产业巨大机遇。

当前，生成式AI技术飞速发展，引领了新一轮AI创新浪潮。AI大模型是生成式AI的关键底座，对生产效率提升、传统产业转型升级具有重大的价值潜力，而大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。随着生成式AI加速落地，业界对配置高算力AI芯片的AI服务器需求也不断高涨。在此背景下，全球已有上百家公司投入新型AI加速芯片的开发，AI计算芯片多元化趋势凸显。由于缺乏统一的业界规范，不同厂商的AI加速芯片存在显著差异，导致不同芯片需要定制化的系统硬件平台承载，带来更高的开发成本和更长的开发周期。

OCP是全球基础硬件技术领域覆盖面最广、最有影响力的开源组织。2019年OCP成立OAI（Open Accelerator Infrastructure）小组，对更适合超大规模深度学习训练的AI加速卡形态进行了定义，以解决多元AI加速卡形态和接口不统一的问题。2019年底，OCP正式发布了OAI-UBB(Universal Baseboard)1.0设计规范，并随后推出了基于OAI-UBB1.0规范的开放加速硬件平台，无需硬件修改即可支持不同厂商的OAM产品。近年来，以浪潮信息为代表的系统厂商研制了多款符合开放加速规范的AI服务器，实现了开放加速AI服务器的产业化实践。

基于在开放加速计算领域的产品研发和工程实践经验，《指南》进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法，提出四大设计原则、全栈设计方法，包括硬件设计参考、管理接口规范和性能测试标准，旨在帮助社区成员更快更好地开发AI加速卡并适配开放加速AI服务器，应对生成式AI的算力挑战。

《指南》指出，开放加速规范AI服务器设计应遵循四大设计原则，即应用导向、多元开放、绿色高效、统筹设计。在此基础上，应采用多维协同设计、全面系统测试和性能测评调优的设计方法，以提高适配部署效率、系统稳定性、系统可用性。

多维协同设计是指系统厂商和芯片厂商在规划初期要做好全方位、多维度的协同，最大化减少定制开发内容。大模型计算系统通常是一体化高集成度算力集群，包含计算、存储、网络设备，软件、框架、模型组件，机柜、制冷、供电、液冷基础设施等。只有通过多维协同，才能实现全局最优的性能、能效或TCO指标，提高系统适配和集群部署效率。《指南》给出了从节点到集群的软硬全栈参考设计。

全面系统测试是指异构加速计算节点通常故障率高，需要更加全面、严苛的测试，才能最大程度降低系统生产、部署、运行过程中的故障风险，提高系统稳定性，减少断点对训练持续性的影响。《指南》对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面梳理。

性能测评调优是指需要对大模型加速计算系统开展多层次的性能评测和软硬件深度调优。《指南》给出了基础性能、互连性能、模型性能测试的要点和指标，并指出了针对大模型训练和推理性能调优的要点，以确保开放加速规范AI服务器能够有效完成当前主流大模型的创新应用支撑。

来源：业界供稿

AI服务器

0赞

好文章，需要你的鼓励

《开放加速规范AI服务器设计指南》发布，应对生成式AI爆发算力挑战

来源：业界供稿

2023

08/11

15:14

分享

点赞

HPE ProLiant Compute DL580 Gen12

红帽收购Chatterbox Labs加强AI治理能力

微软和谷歌主导企业AI供应商市场

芝加哥大学

波司登

美国NIST发布人工智能网络安全框架指南草案

优必选 Walker S2

360 Games

智元 精灵G2

Beam

蚂蚁 百宝箱

腾讯元器

2024深度洞察：AI服务器与AI PC的风云变幻

2024 AI服务器市场竞争格局

浪潮计算机新一代高性能AI服务器助力多行业数智化发展

打造安全创新引擎 浪潮计算机发布新一代高性能AI服务器NF5468H7

HBM、HBM2、HBM3和HBM3e技术对比

戴尔发布第四季度及全年财报 AI服务器增长推动基础设施业务稳定恢复

转折倒计时：AI服务器距离全面占领市场还要多久？

刘军：联想AI导向基础设施已实现AI全域覆盖

《开放加速规范AI服务器设计指南》发布，应对生成式AI爆发算力挑战

MLPerf最新成绩公布，宁畅AI服务器再获世界冠军

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

智元精灵G2

蚂蚁百宝箱

打造安全创新引擎浪潮计算机发布新一代高性能AI服务器NF5468H7