探秘庆阳算力枢纽:“燧弘华创+联想”树立智能计算新标杆 原创

异构智算与AI大模型的深度融合,DeepSeek极限吞吐超8000 tokens/s。

庆阳,作为全国一体化算力网络国家枢纽节点和国家数据中心集群,是“东数西算”工程的重要枢纽,也是冉冉升起的“中国算谷”。

走进庆阳算力网络国家枢纽节点的燧弘华创智算中心机房,一场算力的变革悄然上演——燧弘华创与联想联合部署的AI服务器集群中单机服务器,在3000并发下实现DeepSeek 671B大模型极限吞吐超8000 tokens/s,刷新了行业标杆。

这一成绩的背后,离不开联想万全异构智算平台。通过访存优化、显存优化、PCIe 5.0全互联架构创新以及精选SGLang框架中性能最优算子等诸多领先创新方式,将单机服务器运行DeepSeek的性能提升到新的高度。

从“用”到“好用” “一横五纵”加速创新生态

自现象级“国民大模型”DeepSeek 横空出世以来,算力格局与 AI 应用格局均被极大改变,前所未有地降低了大模型部署成本,极大拓展了覆盖面,以较低水平达到国际领先。在全国政协委员、中科院计算所研究员张云泉看来,DeepSeek 的诞生标志着 AI 领域迎来新的技术突破,尤其在低算力训练与高效率模型优化方面成果显著,将推动 AI 技术朝着更高效、更普惠的方向发展。

张云泉认为,这一突破促使全球市场重新审视大模型发展的成本曲线,推动芯片、云计算等基础设施加速升级。他还提到,在此趋势下,平台化建设需加力。通过平台赋能,能为更多创业者提供支持,借助平台建设创新生态,让各方在同一生态与平台上共同发展、借力前行,降低成本与开销。探秘庆阳算力枢纽:“燧弘华创+联想”树立智能计算新标杆

全国政协委员,中科院计算所研究员张云泉

“联想万全异构智算平台,便是这样的平台”张云泉说。

万全异构智算平台在联想的技术布局中占据重要地位,自2024 年推出后便成为焦点。该平台整合了服务器、存储、网络等资源,形成适用于各种 AI 场景的集群方案。

联想中国基础设施业务群战略总监黄山表示,作为领先的AI基础设施提供商,联想凭借联想万全异构智算平台应对智算挑战,以领先的液冷技术持续解决能效和能耗难题,为千行万业输送真正 “好用” 的算力。

探秘庆阳算力枢纽:“燧弘华创+联想”树立智能计算新标杆

联想中国基础设施业务群战略总监 黄山

黄山坦言,万全异构智算平台是联想AI基础设施“一横五纵”战略中的核心,一直以来,联想持续全力推进“一横五纵”战略布局,全面推出覆盖万全异构智算平台,以及涵盖服务器、存储、数据网络、软件及超融合、支持运维服务等在内的全方位基础设施解决方案。

“一横五纵” 指的是以万全异构智算平台(一横)为核心,以服务器、存储、数据网络、软件及超融合、边缘计算五大产品(五纵)为依托,为市场带来覆盖通用、AI、科学算力等全场景的算力支持。这些基础组件相互协作,将为整个AI 体系提供稳定支撑。

通过万全异构智算平台,可实现对算力的统一管理调度。其中包括对各家 GPU 的基础软件站、算子库驱动 SDK 的集成,算力库的共同开发,以及对 HPC 和 AI 的统一管理,其核心聚焦于 AI 计算加速的底层技术。这一架构使得联想能够将下层的各类设施产品整合为完整的算力输出方案,并通过深度调优手段,达成最优的计算效率。这种全面且精细的布局,为联想在智能体应用等前沿领域的拓展提供了有力保障。

“联想作为领先的AI基础设施提供商,凭借联想万全异构智算平台应对智算挑战,以领先的液冷技术持续解决能效和能耗难题,正为千行万业输送真正 “好用” 的算力,从而有力推动智能化转型和产业升级。”黄山说。

五大“异构创新” 加速DeepSeek高效落地

在加速DeepSeek大模型落地中,万全异构智算平台展现出强大的优势。

其一,多元异构混合算力纳管。万全异构智算平台展现出了强大的兼容性,能够纳管来自众多合作伙伴的不同算力芯片。通过设计抽象算力模型和使用接口,该平台成功屏蔽了异构 AI 芯片底层硬件和 AI 软件栈的差异,极大地简化了异构混合 AI 算力的使用流程,让用户能够轻松驾驭复杂的算力资源。

其二,GPU内核态虚拟化。在GPU 驱动层,平台创新性地开发了内核态虚拟化算法。借助自研的内核态显存隔离、时间片轮转算法以及算力调度等技术,在每个时间片调度周期内对显存和算力进行精准隔离。这一技术的优势在于,它能将一块物理 GPU 设备虚拟成多块逻辑设备,供多个用户同时使用,且用户几乎无感知。更为重要的是,它将虚拟化造成的 GPU 算力损耗控制在了 5% 以下,显著提升了集群内 GPU 的整体利用率。

其三,大模型训练的弹性容错。在大模型等 AI 任务的大规模分布式训练、微调场景中,万全异构智算平台内置的高效分布式训练容错机制(断点续训)发挥着关键作用。当节点发生软硬件故障时,该系统能够自动快速回滚到上一次检查点,确保训练任务的正常推进。通过自研的 AI 硬件故障预测、实时故障感知、检查点优化等技术,大大加速了断点续训的故障恢复过程,为大模型训练的稳定性和连续性提供了有力保障。

“我们采用异步方式,先在内存中进行日志记录(log down)并执行检查点(check point)操作。由于这一检查点操作是异步的,因此对整个训练过程的干扰极小。”联想中国基础设施业务群战略总监黄山强调。

联想中国基础设施业务群高级产品经理郭晋兵举例说:“通过异步多级缓存,得以保存训练的中间状态,故障恢复时从断点同步重启,从而减少训练中断损耗。故障恢复耗时仅0.01毫秒,比传统开源方案快20-30倍。”

探秘庆阳算力枢纽:“燧弘华创+联想”树立智能计算新标杆

联想中国基础设施业务群高级产品经理  郭晋兵

其四,AI 高层编译训推优化。万全异构智算平台内置的AI高层编译优化工具链独具特色。其自研的全新动态形状捕获和 IR 表达机制,能够对数据流和控制流子任务进行高效拆分。通过全自动化的计算图优化,并自动生成匹配特定架构的高性能算子,在确保计算精度的前提下,大幅提升了计算效率,为 AI 模型的训练和推理提供了强大的支持。

其五,高性能互连与集合通信。该平台的自研高性能集合通信库同样亮点十足。它巧妙利用多层次异构拓扑感知和硬件互联特性,结合网络拥塞主动探测和避免技术,以及针对 AI 等应用负载领域特性相关的通信、计算调度优化等技术,有效降低了通信开销,显著提升了 AI 和 HPC 任务的整体运行性能。

探秘庆阳算力枢纽:“燧弘华创+联想”树立智能计算新标杆

联想与燧弘华创的“东数西算”实践

自2023 年起,燧弘华创便深耕甘肃,积极投身于庆阳数据中心的建设工作中。

作为庆阳算力集群的先行者,燧弘华创凭借其燧弘庆阳绿色智算中心,以及在庆阳市构建AI全产业链生态的卓越成就,荣获了“全国一体化算力网络国家枢纽节点(甘肃·庆阳)首批万P算力建设突出贡献企业”的荣誉称号。

2023年,经甘肃省政府引入,燧弘华创的前身弘信电子与庆阳市政府合作签署了战略协议,成为庆阳算力枢纽节点的重要组成部分,并与合作伙伴联想一道,为甘肃算力产业的腾飞贡献力量。

燧弘华创执行总裁唐锋透露,自2023年起,燧弘华创深耕甘肃,助力庆阳从“东数西算”枢纽末位跃升至全国第一方阵。 

探秘庆阳算力枢纽:“燧弘华创+联想”树立智能计算新标杆

燧弘华创执行总裁  唐锋

在技术优势与产业实践的深度融合中,庆阳“东数西算”枢纽展现出强劲的算力进化动能。而联想万全异构智算平台的性能创新,以及联想问天服务器的强大算力基座,不仅为超智融合技术落地提供了硬件支撑,更通过软硬协同优化打通了算力资源高效调用的关键路径。

黄山回忆说:“当时,庆阳数据中心正面临转型。此前,一直致力于开展裸金属业务,后来则计划向大厂以外的客户出租资源。在此过程中,云服务能力、底层调优能力以及自主运维能力成为必备要素。

“就庆阳本地而言,在云服务领域,合作方并非仅有联想一家。但在底层调优能力方面,联想凭借领先优势成为庆阳的重点合作对象。”黄山坦言。

据悉,2024年9月,255台联想问天WA 5480 G38卡GPU服务器,完成在庆阳国家级枢纽节点的交付,总的GPU卡部署数量达2040卡,智算能力达到1275P。联想问天WA 5480 G3服务器搭载了第四代英特尔®至强®可扩展处理器,其拥有强大的计算能力,同时内置了众多加速器,如英特尔®高级矩阵扩展(Intel® AMX)加速器可大幅提升AI训练和推理性能,是智算中心建设的首选。

英特尔高性能计算行业总监张东升表示:“超智融合技术作为近年来全球计算领域热点话题,其核心思想是将超算与智算的能力相结合,以满足在人工智能高速发展背景下的各行业多元算力需求。”

探秘庆阳算力枢纽:“燧弘华创+联想”树立智能计算新标杆

英特尔高性能计算行业总监 张东升

在应用落地和调优方面,郭晋兵现场演示了联想万全异构智算平台如何加速DeepSeek大模型落地。联想及其生态伙伴在庆阳搭建的联想万全异构智算平台,在管理142节点千卡进行DeepSeek后训练时,以调优技术使得训练MFU高达60%以上,在训练期间人为加入多类故障后进行故障断点续训的时间小于1分钟。

郭晋兵同时展示了通过联想万全异构智算平台的内核态虚拟化技术,以单GPU卡运行100个模型任务的实例。此外,郭晋兵还演示了DeepSeek 671B FP8单机8卡性能,极限总吞吐高达8000+ tokens/s!通过现场演示,联想万全异构智算平台已验证其在推理加速、训练优化、断点续训、内核级虚拟化等大模型推理优化场景具有明显优势。

谈及未来,黄山表示,2024 年,联想主要服务于大型智算中心,燧弘华创、北大、吉利等都是典型的优质客户,进入 2025 年,联想将与智算中心携手服务千行百业。以推理服务、智能体开放平台,以及智能体开发平台,进一步拓展生态布局,并自下而上地构建完善行业标准。

黄山强调说:“近期,联想与异构智算产业生态联盟联合发布了业界方案白皮书。新的一年,我们还将共同制定高性能大模型讯推标准等行业标准,持续推动行业规范化发展。

“此外,作为全国第一批倡导的AIPC的企业,联想目前已经实现在端侧部署DeepSeek7B、32B的产品升级,同时通过异构算力,不断丰富私有化部署和本地化部署的AI体验。”黄山说。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2025

03/31

10:17

分享

点赞

邮件订阅