ARM 公司是全球重要的芯片 IP 授权厂商,由于 ARM 生态涵盖面广泛,其经营情况也是全球芯片设计业的重要风向标之一。从当季收入体量看,8.24 亿美元的收入是创出历史新高的,且高于此前给出的预期区间(7.2 亿-8 亿美元)。
虽然 ARM 早期投入的重点在通用 CPU 赛道,与 AI 算力需求还存在较大差异。但是,随着公司新的 V9 架构的推出,该架构的机器学习能力在数据中心的训练和推理端、边缘端 AI 等领域都有用武之地。数据中心方面,公司与 NVIDIA 的 GraceHopper、微软的 Cobalt、AWS 的 Graviton 系列等芯片,都有着紧密的合作关系。在智能手机、PC 等端侧产品方面,公司推出的 Arm Cortex-X4正在赋能智能手机芯片,使其具备图片生成、实时翻译等功能,在三星Galaxy S24、Vivo iQoo 12 和小米的 14 pro 等产品中都在得到应用。在AI PC 领域,ARM 也开始取得进展,2023 年 10 月 24 日,高通公司基于ARM 架构打造了一款面向 PC 的骁龙 X Elite 处理器芯片,可以运行 130亿参数的大模型,预计搭载该芯片的 PC 产品将在 2024 年年中上线。
2021年,公司公布了其最新的 ARM V9 架构,除了向前兼容 V8 架构之外,V9架构更加强调 AI、矢量和 DSP 性能改进、安全性等能力。ARM V9 架构主要应用于 A 系列应用处理器、R 系列即时处理器,以及 M 系列微控制处理器。公司最新公告显示,目前市场上主要高端手机,都使用了 V9 架构,尤其是随着人工智能在智能手机端应用的提速,V9 相比于 V8 的优势更为明显,后续应用将提速,此部分的版税收入占比有望提升;数据中心芯片方面,NVIDIA Grace Hopper、AWS Graviton、Microsoft Cobalt 等都应用了 ARM V9 架构。
从中长期来看,随着单芯片 ARM 核数增加、基于 ARM 架构芯片数量的上升以及ARM 应用场景的增加,公司仍将保持增长。据公司公告数据显示,2023 财年,高端芯片采用 ARM 的核数已经从 2016 财年的 8 核,上升到了 192 核;同时,公司的芯片应用范围也从早期的移动领域,拓展到云计算及数据网络、汽车等多个领域。
虽然 ARM 早期投入的重点在通用 CPU 领域,与 AI 算力需求存在较大差异。但是伴随着新的 V9 架构的推出,公司在数据中心的训练和推理端、智能手机等边缘设备端,其授权技术满足 AI 需求的机器学习的能力显著增强。
ARM 在智能手机、PC 等领域开始为 AI 赋能。公司推出的Arm Cortex-X4 正在赋能智能手机芯片,可以具备图片生成、实时翻译等功能,在三星 Galaxy S24、Vivo iQoo 12 和小米 14 pro 等产品中都在得到应用。联发科在 2023 年 11 月发布的天玑9300,就是基于ARM 架构打造。天玑9300采用“全大核”CPU 架构,包含4个Cortex-X4超大核,最高频率可达3.25GHz,以及 4 个主频为 2.0GHz 的 Cortex-A720 大核,其峰值性能相较上一代提升 40%,功耗节省 33%。联发科表示,该芯片可以支持终端运行 10 亿、70 亿、130 亿、最高可达 330 亿参数的 AI 大语言模型。
在 AI PC 领域,ARM 也开始取得进展。2023 年 10 月 24 日,高通公司基于ARM 架构打造了一款面向PC 的骁龙 X Elite处理器芯片,可以运行 130 亿参数的大模型。公司预计搭载该芯片的PC 产品将在 2024 年年中上线。高通的加入,将使得ARM 在 PC 生态链的地位更为稳固。
2021 年,公司公布了其最新的 ARM V9 架构,除了向前兼容V8 架构之外,V9 架构更加强调 AI、矢量和 DSP 性能改进、安全性等能力。ARM V9 架构主要应用于 A 系列应用处理器、R 系列即时处理器,以及 M 系列微控制处理器。此前的 V8架构的成功,公司主要依赖智能手机市场对 ARM 芯片的广泛应用。而新的 V9 架构,预计除了在智能手机市场上继续保持强势地位之外,未来在数据中心、智能汽车等领域,都有望培育新的增长点。
公司最新公告显示,目前市场上的几乎所有的高端手机,都使用了 V9架构,尤其是随着人工智能在智能手机端应用的提速,V9相比于V8的优势更为明显,后续应用将提速,此部分的版税收入占比有望提升;数据中心芯片方面,NVIDIA Grace Hopper、AWS Graviton、Microsoft Cobalt 等都应用了 ARM V9 架构。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。