摩尔线程S5000 + 智源FlagOS：基于原生FP8引擎，Day-0适配DeepSeek-V4

摩尔线程凭借独特的原生FP8支持优势，能够更高效承载 DeepSeek-V4 的前沿精度设计，为模型部署与推理优化提供了坚实的算力底座。

4月24日，摩尔线程携手智源众智FlagOS社区，在旗舰级AI训推一体全功能GPU MTT S5000上，率先实现对新一代大模型DeepSeek-V4-Flash的Day-0极速适配，并完成了全量核心算子的深度优化与部署支持。

摩尔线程S5000 + 智源FlagOS：基于原生FP8引擎，Day-0适配DeepSeek-V4

DeepSeek-V4-Flash 采用混合专家（MoE）架构，总参数量高达284B，激活参数13B，支持百万token上下文长度。其预训练数据超32Ttoken，在最大推理力度模式（Flash-Max）下推理能力逼近Pro版本。值得关注的是，V4模型首次采用“FP4+FP8”混合精度策略，而当前国内主流 AI 芯片仍普遍以BF16为主。而摩尔线程凭借独特的原生FP8支持优势，能够更高效承载 DeepSeek-V4 的前沿精度设计，为模型部署与推理优化提供了坚实的算力底座。

作为国内率先原生支持FP8精度的全功能GPU，MTT S5000配置了强大的硬件级FP8 Tensor Core 加速单元。相比传统的BF16/FP16，FP8能够将数据位宽直接减半，使显存带宽压力降低 50%，理论计算吞吐量实现翻倍。

为充分发挥MTT S5000在FP8计算上的内核优势，FlagOS对DeepSeek V4模型进行了FP8量化。通过系统级分析，双方技术团队将本次适配的攻坚重点锁定在FP8算子与Sparse Attention算子。针对这两个决定长上下文效率与极致推理性能的关键算子，团队从“编译优化”与“自动调优”两个核心方向取得了重大突破：

▼ 方向一：深入利用摩尔线程 FlagTree编译器能力，提升底层执行效率。通过精细化的 shape 对齐策略，使 FP8 和 Sparse Attention 的计算 shape 更好地满足摩尔线程张量访存与计算引擎（TME/TCE）的要求；同时结合 MUSA_ENABLE_SQMMA，进一步加速 tl.dot 矩阵计算。

▼ 方向二：借助 FlagOS-Tune，自动搜索最优 Triton 内核配置。FlagOS-Tune 能够扩展算子的搜索空间，基于模型真实 shape 离线搜索 FP8 和 Sparse Attention 算子的最优内核配置，效果优于手工调参。

在离线优化之外，FlagOS-Tune还支持在线内核配置搜索能力。用户只需开启环境变量 USE_FLAGTUNE=1，经过一段时间的 warmup 后，系统基于实际运行过程持续搜索并应用最佳配置。其中，TTFT 时延降低 16.5%，ITL 时延降低 39.7%，Throughput 提升 65.7%。

当前，摩尔线程与FlagOS社区正持续推进拥有1.6T旗舰模型（1.86万亿参数）的DeepSeek-V4-Pro在MTT S5000上的迁移适配工作。未来，摩尔线程将继续以MUSA架构与全功能GPU的全栈技术优势，为国产大模型生态提供更高效、更自主可控的算力基石。

开发者可下载镜像进行开箱体验：

DeepSeek-V4-Flash

▼魔塔平台

https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS

▼ HuggingFace 平台

https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS

来源：业界供稿

0赞

好文章，需要你的鼓励

摩尔线程S5000 + 智源FlagOS：基于原生FP8引擎，Day-0适配DeepSeek-V4

来源：业界供稿

2026

04/24

16:15

分享

点赞

手机上的"氛围编程"时代正式来临

技术通常为年轻人创造就业，AI会做到吗？

AI驱动美国储能市场创季度新高，2030年预计突破610GWh

突破内存瓶颈：HBM、CXL与GPU新部署策略

光掩模技术面临新挑战：瓶颈、曲线图形与数据难题

低温焊料在芯片小片与光子学领域的关键作用

Chiplet经济学：成本如何影响芯片产业发展？

定制化单板计算机如何提升嵌入式视觉系统的盈利能力

Anthropic企业市场份额首超OpenAI，AI模型支出激增

用谷歌街景模拟真实世界场景，Project Genie 全面升级

保加利亚启用谷歌云强化国家网络安全防御

Forward品牌升级推出网络预测新能力

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: