“在AI进入物理世界的今天,我们到底需要什么样的算力底座?”这一问题背后,是算力的路线之争。
如果说2024年大家还在为Scaling Law(规模定律)下的显存容量而焦虑,那么到了2025年底,真正的焦虑变成了——如何让AI理解并改变物理世界。
事实上,2025年是算力范式裂变的一年。
随着人工智能向Agentic AI(智能体AI)乃至物理AI(Physical AI)演进,单纯的算力堆砌已经无法满足日益复杂的应用需求。
具体而言,其一是物理AI的崛起。具身智能、工业机器人、自动驾驶等应用,不仅需要AI理解意图,还要实时感知物理规则(物理仿真),并实时构建出高保真的视觉反馈(图形渲染)。
其二是本土化创新的战略选择。通用性与灵活度的平衡在本土算力演进的过程中,存在“通才”与“专才”的选择问题。
例如,谷歌的TPU是全栈整合的“专才”典型,其在闭环生态内具有极高的性价比,但大多数本土企业并不具备垂直整合的能力。相比之下,GPU分工合作的机制,从CNN到Transformer再到未来的“世界模型”,其能在每次计算范式的更迭中,始终保证性能与灵活度。
其三是“图算结合”。AI的未来方向,一定是多模态的。这就需要其既能“理解世界”(AI计算),还能用三维去“构建世界”(图形渲染),并能通过超高清视频进行传输。这种能力在AI for Science、工业数字化转型中具有重要价值。
12月20日,在首届MUSA开发者大会(MDC 2025)上,摩尔线程创始人张建中,带着过去五年的成绩单走向台前。基于对计算范式的深度洞察,摩尔线程从底层的MUSA架构开始,就在为“全功能”蓄力。
01 全精度“大满贯” “花港”开启训推渲染“双升路线”
这次,摩尔线程正式发布了代号为“花港”的第五代全功能GPU架构。
从指标上看,“花港”基于完全本土创新的一代指令集架构与处理器微架构,其算力密度提升50%,计算能效实现了10 倍级跨越式提升。值得注意的是,这一提升并非单纯依赖工艺,更深层的变化,来自对并行计算组织方式本身的重写。
在传统GPU并行模型中,算力瓶颈并不在于“核心不够多”,更多是来自核心之间长期存在的调度失衡——任务分配不均导致部分计算单元闲置,另一部分却持续拥塞,硬件峰值难以转化为有效的算力吞吐。
但是,“花港”架构引入了新一代异步编程模型,通过重构任务调度与资源分配机制,结合高效线程同步、线程束特化等技术,让成千上万的计算核心可以在更细粒度、更高并发的节奏下协同运转,从而显著提升算力的“实际可用率”。
这种对硬件潜力的极限释放,使得其GPU在面对亿级参数级模型时,不再只是“能跑”,更能提升有效产出比。
如果说并行模型决定了算力是否“用得满”,那么精度完整性则决定了芯片能否覆盖真实世界中复杂多样的计算需求。“花港”架构实现了从科学计算所需的FP64,到主流大模型训练的FP32 / TF32,再到可显著压缩推理成本的FP8、FP6、FP4的原生全精度支持。
在此基础上,摩尔线程对Tensor Core进行了新一轮的深度设计升级。通过TCE-PAIR技术,让两个张量计算引擎在计算过程中共享数据通路,将算力效率与数据复用深度耦合。在大量算子密集的应用场景中,这种内部结构的优化,往往比单纯堆叠算力更能撬动整体性能。
这也是“花港”作为第五代“全功能 GPU”架构的原因——既能承担高精度的科学模拟(AI4S),也能下沉到低精度的大规模推理,覆盖物理AI与多模态计算的完整图谱。
在完成底层架构统一之后,摩尔线程并没有选择“一颗芯片打天下”,而是基于“花港”架构,明确分化出两条面向不同范式的产品路线。
其中,“华山”系列,面向AI训推一体与超大规模智能计算场景。该系列完整集成了新一代异步编程技术,并引入高性能MTFP4计算能力,目标是为万卡级智算集群提供稳定、可持续扩展的算力底座。其浮点计算能力对标行业的较高水平,指向的是构建下一代“AI 工厂”所需的系统级算力。
“庐山”系列,则集中在高性能图形渲染领域,其性能提升近乎“暴力”——AI 计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍。
在摩尔线程的判断中,图形能力并非是游戏的专属,更是物理AI的“五感系统”。没有高保真、实时的渲染能力,具身智能就无法在仿真环境中学习真实世界的物理反馈、光影变化与空间关系。通过集成AI 生成式渲染架构(AGR)与UniTE 渲染架构,“庐山”不仅能够支撑3A级实时渲染,更成为工业数字化仿真与具身智能训练中的关键基础设施。
02 跨越“万卡壁垒” 摩尔线程的本土算力“成人礼”
如果把芯片看作“个体”,那么万卡集群则是高度协同的庞大军团。
在未来几年的算力战场上,真正决定上限的,是能否在数万乃至十万颗芯片的规模下,保持系统的稳定性、可用性与持续吞吐。这是一道典型的工程题——规模一旦放大,任何一次硬件失效、通信抖动,都会被指数级放大为系统性风险。
这便是在超大规模训练场景中,业界长期被困扰的问题——“万卡壁垒”。
摩尔线程本次推出的“夸娥(KUAE)2.0万卡智算集群”,正是针对这一工程痛点给出的解法,其关键在于DP组级的故障隔离与自愈机制。

例如,当某一GPU或计算节点发生异常时,系统只隔离受影响的数据并行组,其余绝大多数GPU保持训练态继续运行,备机接入后,仅对局部通信拓扑进行重建,无需整体停机或全量重启,这种设计思路,本质上是将“容错”前移到调度与通信层,避免“断点”影响扩散到训练任务本身。
按照摩尔线程官方披露的数据,在万卡规模下,有效训练时间占比可维持在90%以上,大规模训练的线性扩展效率接近95%。更重要的是,这意味着,万亿参数模型在本土化算力体系上,具备了“工程可持续性”——不再只是跑得动,而是能稳定、连续地跑完。
如果说集群能力验证的是“系统工程”,那么模型实测考验的则是软硬件协同的真实水位。
现场,摩尔线程展示了在MTT S5000单卡上运行DeepSeek R1 671B全量模型的优化实测结果。
坦白讲,这一选择本身就具有现实意义——MoE架构因其不规则计算、专家调度与通信压力,被公认为对系统最“挑剔”的模型形态之一。
在现场测试下,单卡Prefill吞吐突破4000tokens/s;单卡Decode吞吐突破1000 tokens/s。这些结果意味着两点:其一,目前本土GPU在MoE场景下的算子调度、显存管理与通信协同已进入可用区间。其二,MUSA软件栈对复杂模型结构的适配,已经从“能跑”迈入“跑得好”。
某种意义上,这更像是一次工程意义上的“成人礼”——标志着本土化算力体系,开始进入全球高端模型训练与推理的现实博弈中。
硬件规模化之后,真正拉开差距的,往往是软件系统的成熟度。在MUSA 5.0中,摩尔线程继续向“效率升级”的方向推进底层能力:核心计算库muDNN在GEMM、FlashAttention等关键算子上,效率逼近理论上限(官方披露为98%+);编译器整体性能较上一代实现数倍级的提升;针对大模型高频路径,持续做算子融合与访存优化。
相比单纯性能指标,更值得注意的是开发范式的变化。摩尔线程同步即将推出的MUSACode 代码生成大模型,用于解决长期的生态摩擦问题——将通用CUDA /主流框架代码,低成本迁移到MUSA体系。
按照官方目前披露的阶段性成果,自动代码转换的可编译率已超过90%,在主流算子与模型结构上的准确率保持在较高水平。
更前沿的探索,则是摩尔线程的Text to MUSA路线,开发者只需通过自然语言描述计算逻辑,系统即可生成面向MUSA 架构的高性能算子。这一方向指向的,是算力平台从“程序驱动”向“意图驱动”的演进趋势。
在软件能力之外,摩尔线程还选择了一条更“更稳”的路线——逐步开放底层能力。包括计算加速库(MATE、MUTLASS)与通信相关组件(MT DeepEP),均已明确了开源或规划开源的路径。
诚然,这一选择并不指向立竿见影的商业回报,而是通过开放工程,将更多开发者真正拉进体系之中。
与此同时,摩尔线程也通过其“摩尔学院”,在高校与开发者社区中形成持续渗透。官方披露数据显示,其已覆盖20万量级的用户规模,并与全国200余所高校建立合作关系。
或许,这一投入短期内难以在账面上量化,却构成其本土算力生态难以被复制的护城河——真正重要的,从来不是某一代芯片,而是可持续的工程体系。
03 端侧“造身 ”补上下一块“物理AI”拼图
当全功能 GPU 架构、持续演进的硬件性能,以及逐步成型的软件工具链被拉到同一条技术主线上,物理 AI开始从概念的验证,进入可被工程验证的阶段。
具身智能是AI从“认知智能”走向“行动智能”的关键路径,而摩尔线程的选择,并没有从模型出发,而是从物理世界的可计算性切入。
此次,摩尔线程发布的MT Lambda仿真训练平台,正是这一选择的直接落地。该平台构建在摩尔线程自研的AlphaCore物理仿真引擎之上,针对刚体动力学、柔体、流体与碰撞等多物理场联合计算进行了底层并行化重构。
在典型工业与自动驾驶仿真负载下,其整体仿真吞吐效率相较传统CPU或“图算割裂”方案,达到了约30倍的提升。具体而言,其通过在GPU上统一调度物理求解与图形渲染,减少数据在不同计算单元间的频繁搬运。
更具现实意义的是,摩尔线程对 3DGS(3D Gaussian Splatting)重建技术的工程化应用。开发者可直接利用普通相机采集的照片或视频,快速重建出厘米级精度、带语义标签的数字孪生环境。相比传统基于CAD、高精地图的建模方式,这一流程大幅降低了场景构建成本,也显著缩短了机器人控制策略与自动驾驶算法的“仿真—验证—迭代”周期。
同步亮相的,还有摩尔线程新一代AI SoC芯片——“长江”。这是一颗将CPU、GPU、NPU与VPU 集成于单一芯片的全智能计算核心,面向端侧推理与多模态处理场景,提供50 TOPS的异构算力。其设计目标便是让模型调试、推理验证与边缘部署具备独立运行能力。
基于“长江”SoC打造的MTT AIBOOK,被定位为端侧AI开发工作站。开发者可以在本地离线环境中直接运行DeepSeek、MiniCPM-V等主流基础模型,以完成推理调试与应用验证,同时还能与云端的“夸娥”算力集群协同工作,形成“小脑在端侧、大脑在云端”的分层算力结构。
在此基础上,其推出的迷你型计算设备 MTT AICube进一步补齐了个人算力中心的形态,使端侧智能不再停留在Demo,更具备持续部署与运行的现实条件。
发布现场,摩尔线程还展示了其与 51SIM 联合打造的自动驾驶仿真引擎。该方案在复杂交通参与体、高频传感器仿真以及动态环境交互中,验证了全功能GPU架构在物理环境模拟上的优势——不是“单帧更快”,而是能够在更高并发、更高保真的环境下持续运行,从而让大规模仿真训练成为可负担的工程选项。
04 写在最后
在MDC 2025上,一个最强烈的行业体感是:在国产算力的牌桌上,图形渲染能力,在物理AI时代正在变成下一张“王牌”。
一方面,是对“算力提纯论”的有力反击。在过去几年本土自研芯片的演进中,存在“去图形化”的论调——为了追求极致的AI理论峰值(FLOPS),许多厂商选择了NPU(神经网络处理器)路线,砍掉了图形渲染单元。这种策略在处理纯文本大模型(LLM)时固然高效,但在面对Physical AI时却显露疲态。
摩尔线程坚持的“全功能GPU”路线,看似在单点能效上不如专用ASIC极致,但其背后的逻辑是——物理世界的智能,必须建立在“感”与“知”的闭环之上。具身智能不仅需要Transformer来预测下一个Token,更需要实时渲染来预测下一帧画面、模拟物理碰撞。而“花港”则通过统一的显存和计算单元,消弭了图形渲染与AI计算之间的数据搬运延迟(Data Movement),更在硬件底层为“世界模型”预埋了最高效的物理通路。
另一方面,从“能跑”到“敢跑”,工程化成熟度是隐形的护城河。业界对于本土算力较大的顾虑,在于万卡集群的MTBF(平均故障间隔时间)。DeepSeek R1 671B等MoE(混合专家)模型对通信带宽和负载均衡的苛刻要求,是检验集群“成色”的试金石。
“夸娥2.0”的“DP组级故障隔离”,则将容错机制下沉到通信层的设计,标志着本土算力已经走出了“堆料”阶段,进入了精细化运维的深水区。
在MDC 2025所展示的,或许是对“计算范式回归”的押注。
在如今这个范式剧变的时代,对“全功能”的执着,正逐渐显现出摩尔线程的远见卓识。本土创新不应只是对标与替代,更应是对未来的定义。
构筑自研基座,共赴智能未来。这场硬核突围,已至中场。
好文章,需要你的鼓励
2025年人工智能在企业中实现突破性应用,从实验阶段转向实用阶段。八位代表性CIO分享核心经验:AI工具快速进化、需保持快节奏实验思维、重视工作流程而非组织架构、数据质量成为新挑战、采用前瞻性指标管理项目、无需等待完美时机、AI既是技术也是社会文化现象、需严格项目管理、变革重在人员而非技术、多智能体架构成未来趋势。
这项由加州伯克利分校等机构联合完成的研究开发了MomaGraph系统,首次实现了机器人对空间关系和功能关系的统一理解。该系统通过强化学习训练,能够同时识别物品位置和操作方法,并具备状态感知能力。在综合测试中达到71.6%准确率,超越同类开源系统11.4%,在真实机器人平台上验证了实用性,为智能家庭机器人的发展奠定重要基础。
日本科技投资巨头软银需要在年底前筹集225亿美元,以履行对AI合作伙伴OpenAI的资金承诺。软银是OpenAI价值5000亿美元Stargate数据中心计划的主要资助者之一。为筹集资金,软银CEO孙正义可能动用多种手段,包括利用其持有的英国芯片设计公司Arm股份作为抵押贷款。软银已清仓英伟达股份为该项目提供资金,目前可通过Arm股份借贷115亿美元,还持有价值110亿美元的T-Mobile股份及270亿美元现金储备。
MIT研究团队提出了突破性的双向归一化流(BiFlow)技术,通过训练独立的逆向模型替代传统的精确逆向过程,解决了归一化流方法架构受限和推理缓慢的核心问题。该方法采用创新的隐藏对齐策略,让逆向模型学习高效的生成路径,在ImageNet数据集上实现了高达697倍的速度提升,同时将图像质量提升到新的技术水平,为生成模型领域带来了重要的思路突破。