生成式AI领域有个有趣的现象——每年年初总会迎来一波技术爆发。今年,DeepSeek率先发力,用突破性创新推动大模型真正走进现实应用。
其实,继2023-2024年连续将“人工智能+”列为重点行动后,今年两会政府工作报告首次明确将“支持大模型广泛应用”纳入行动计划。这标志着“生成式AI”和“大模型“正式从技术概念上升到战略层面,成为推动数字经济发展的关键引擎。
IDC发布的《中国模型即服务(MaaS)及AI大模型解决方案市场追踪,2024H1》调研结果也给出印证,报告显示2024上半年中国AI大模型解决方案市场的规模为13.8亿元人民币,预计到2028年整体市场规模将达到211亿元人民币。
当前,大模型要实现大规模应用还面临算力、能效、成本、多样化场景等多个维度的关键挑战。行业需求上则主要有两大发展趋势:一方面大模型部署正朝着更广泛、更深度、更高效的方向演进,另一方面推理也从集中化的云端向端侧延伸。
因此,构建云边端协同的多元化算力体系已成为企业实现大模型规模化落地的关键路径。作为全球领先的计算平台公司,Arm正助力从云到端的大模型部署与高效运行,满足企业对更高性能、更高能效以及更强本地处理能力的迫切需求。
开启AI时代的架构创新
凭借高能效、高性能与卓越的灵活性,Arm技术持续为释放AI大模型的潜能提供强大支持。Arm 于2021年推出了Armv9架构,正式开启了AI时代。
近些年,Arm一直在持续投资Armv9架构,其集成了用于加速和保护LLM等先进的生成式AI工作负载的特性,比如可伸缩矩阵扩展(SME)和可伸缩矢量扩展(SVE2)两大关键特性,可共同作用于Arm CPU,使其能够快速高效地执行AI工作负载:
SME是Armv9-A架构中引入的指令集架构(ISA)扩展,能够加速AI和ML工作负载,并为运行在Arm CPU上的AI和ML应用提供更高的性能、能效和灵活性。
SME使用量化技术(通常是从浮点表示法转换为定点表示法)来降低AI和ML模型的内存带宽需求、存储占用空间以及计算复杂性,进而提高其效率,这对于计算密集型的生成式AI工作负载至关重要。
SVE2则有助于提升DSP任务性能,使处理复杂算法更加快速、高效。SVE2可将HDR视频解码速度提高约10%,这样用户在主流应用上观看点播视频时,能获得更长的电池续航时间。通过加速常用的图像处理库,SVE2还增强了视频通话期间用户体验的流畅度,同时提高了画面质量。
云上AI新范式
在云端,Arm早在AI时代全面到来之前就已提前布局。六年多前,Arm推出了面向下一代云基础设施的Neoverse计算平台,凭借更低的能耗和成本,受到大型云服务提供商的青睐。
如今,亚马逊云科技(AWS)、Google Cloud和Microsoft Azure等云服务提供商,均已采用Arm Neoverse计算平台来打造自己的通用定制芯片,以改变数据中心和云计算中的能源使用方式。据统计,2025 年出货到头部超大规模云服务提供商的算力中,将有近50%是基于Arm架构。
基于 Arm Neoverse 技术的服务器所具备的低功耗特性,能带来更优异的能效比。这对于大模型推理任务来说尤为重要,因为大模型通常需要大量的计算资源。同时,Arm还提供了完整的软硬件支持与优化,使得大模型推理在基于Arm架构的服务器上运行更加便捷和高效。
比如,基于Arm Neoverse V2核心的AWS Graviton4 C8g.x16large实例在运行Llama 3 70B模型时,每秒可生成10个词元。运行Llama 3 8B模型时,Graviton4的提示词编码性能较Graviton3提高了14%至26%,词元生成性能提高了5%至50%。
基于Arm Neoverse N2架构的阿里云倚天710,在运行Llama 3和Qwen1.5等业内标准大语言模型时中表现出极高灵活性与扩展性。通过与Arm软件团队的紧密合作,阿里云对 llama.cpp 中的 int4 和 int8 GEMM 内核进行了优化,特别是利用了 SMMLA 指令来提高计算效率。在ecs.g8y.16xlarge实例上(配置 64 个 vCPU 和 256GB 内存),多次实验结果显示,每秒处理的词元数量增加了2.7倍。
Arm还优化了FunASR语音识别模型,利用SVE2指令和BF16数据类型,使其在Arm Neoverse服务器上高效运行。通过动态量化,INT8和BF16数据格式的组合实现了1.5倍的效率提升,同时保持了精度,确保了FunASR等大模型在AI应用中的高效表现。
端侧AI新高度
在端侧,Arm于去年推出了终端计算子系统 (CSS),整合了最新的Armv9.2 Cortex CPU集群、Arm Immortalis与Arm Mali GPU、CoreLink互连系统IP,并采用三纳米工艺在知名代工厂实现CPU和GPU的物理生产。作为AI体验的计算基础,Arm终端CSS能够在各种消费电子设备中实现性能、效率和可扩展性的显著提升。
以Cortex-X925为例,它在AI性能方面实现了惊人的41%提升,显著增强了设备端生成式AI(如LLM)的响应能力。借助终端CSS,LLM能够在Arm CPU上更高效地运行,提供更快的响应速度。
从具体实例来看,Arm与Meta的紧密合作,使最新的Llama 3.2 LLM在Arm CPU上得以启用,结合开源创新与Arm计算平台的优势,显著推动了AI挑战的解决。在Arm技术驱动的移动设备上优化Llama 3.2 3B LLM内核,提示词处理速度可提高五倍,词元生成速度提升三倍,生成阶段达每秒19.92个词元。此优化减少了设备端AI工作负载的延迟,显著提升了用户体验。
在移动端的聊天应用中,基于Arm CPU,Llama 2 7B LLM无需加速器即可在边缘设备上运行生成式AI工作负载。得益于Arm计算平台对LLM的专门优化,其词元首次响应时间缩短50%,文本生成速率提升20%,达到了每秒近10个词元,超出人类阅读速度,为用户提供了流畅的生成体验。
而随着大模型在边缘侧的落地,行业对高性能与能效的需求也愈加迫切。为此,Arm近期发布了以全新的 Arm Cortex-A320 CPU 和领先的边缘 AI 加速器 Arm Ethos-U85 NPU 为核心的Armv9边缘AI计算平台。
全新的边缘AI计算平台,较去年基于Cortex-M85搭配Ethos-U85的计算平台提升了八倍的ML计算性能。该平台不仅在AI计算能力方面取得了显著突破,还将Armv9的安全特性引入到边缘设备中。凭借其强大的性能,该平台能够支持边缘AI设备轻松运行超过10亿参数的大模型,有力推动了大模型与生成式AI在物联网领域的落地。
软硬结合解锁AI算力
Arm在软件领域的持续投入也为大模型的性能提升与加速落地提供了强有力的支持。2024年,Arm推出了KleidiAI,帮助AI框架开发者在各类设备上轻松发挥Arm CPU的最佳性能,并支持Neon、SVE2、SME2等关键Arm架构功能。
作为一套面向 AI 框架开发者的开源计算内核 ,KleidiAI能够与PyTorch、TensorFlow、MediaPipe、Angel等主流AI框架无缝集成,从而加速Meta Llama 3、Phi-3、混元大模型等核心模型的性能,为生成式AI工作负载带来显著提升。
此外,KleidiAI还具备前后兼容性,确保Arm在引入新技术的同时,持续满足未来市场的需求。目前,Kleidi的支持已覆盖从基础设施、智能终端到物联网及汽车等全部Arm业务领域。
据了解,Arm与阿里巴巴淘天集团的轻量级深度学习框架MNN合作,通过Arm KleidiAI的集成,成功将多模态AI工作负载(Qwen2-VL-2B-Instruct模型)在搭载Arm CPU的移动设备上高效运行。经过优化,Qwen2-VL-2B-Instruct模型的运行和响应速度得到了显著提升,模型预填充性能提升57%,解码性能提升28%。这一提升可为阿里巴巴旗下众多以客户为中心的应用程序带来更加出色的用户体验。
此外,Arm还与腾讯合作,将KleidiAI技术融入腾讯混元自研的Angel机器学习框架,提升了移动端AI服务的推理性能和效率。将KleidiAI集成至混元Angel AI框架中能为跨操作系统的各种基于Arm架构的设备带来显著的性能提升。具体来说,混元大模型的预填充部分加速了100%,解码器的速度提高了10%。这些性能改善有助于实现更快、更高效的AI操作。
写在最后
随着AI的不断演进,我们正在见证一个“算力为王”时代的悄然到来。在这一进程中,Arm不仅提供了强大的计算平台,更通过卓越的软硬件协同能力,成为推动未来AI发展的关键基座。
然而,这一进程不仅仅是算力的简单叠加,更是跨越创新与应用场景的深刻转型。从智能终端到智能驾驶、从云基础设施到工业级物联网,Arm正以突破性的技术为生成式AI注入新的动能。这不仅正在重塑行业格局,甚至有可能彻底改变我们的生活和社会运作方式。
好文章,需要你的鼓励
构建云边端协同的多元化算力体系已成为企业实现大模型规模化落地的关键路径,Arm正助力从云到端的大模型部署与高效运行,满足企业对更高性能、更高能效以及更强本地处理能力的迫切需求。
尽管市场上频繁出现所谓的自主代理 AI,但目前尚无统一定义,多数产品不过是 LLM 的简单包装,这让 CIO 在采购时面临风险与困惑。
最新研究发现,AI生成的代码常错误引用虚构依赖库,为供应链攻击提供契机,可能导致数据泄露、植入后门等恶意行为,严重威胁系统安全。
本文讨论了 IT 自动化过程中容易忽视的流程问题、数据质量、整合难题、成本误区以及 AI 融入后带来的监管与创新挑战。