能效和定制化将推动ARM在人工智能领域发挥关键作用

Arm公司花了多年的时间来开发这个架构，因为一些早期的Arm服务器处理器供应商倒闭或放弃其计划而倍感失望，同时也付出了巨大的努力来开发软件生态系统，不过现在，Arm已经在本地系统和云数据中心站稳了脚跟。

十多年前，Arm的高管看到数据中心能源成本飙升，意识到有机会扩展其同名片上系统的低功耗架构，这个系统从一开始就主导了移动电话市场并占领了嵌入式设备市场，从PowerPC进入企业服务器。

这是为了打造功耗更低、更便宜、且更具延展性的英特尔Xeon和AMD Epyc CPU的替代品。

Arm在公布2月份最新季度财报的时候特别提到了自己平台化的市场策略，指出在2016年Arm的收入中至少有三分之二是来自移动领域的通用CPU。现在，Arm已经拥有针对多个市场的平台，包括云和网络系统，并在高性能计算领域取得了不错的成绩，富士通的A64FX处理器就是基于Armv8.2-A架构的，为代号Fugaku的系统提供支持，这个是最近Top500榜单中位列第四的超级计算机。

随着AI的兴起，Arm公司首席执行官Rene Haas也看到了其中的机会。Haas表示，模型现在消耗了大量的电力，未来只会有增无减。

他说：“我花了很多时间与这些公司的CEO交谈，电力问题一直是每个人最关心的问题，他们都在寻找不同的方法来解决这个问题，因为我们认为，AI可以带来的一切好处都是相当巨大的。为了获得越来越多的智能、更好的模型、更好的预测性、添加上下文、学习能力等等，这对计算的需求不断增加，显然也会推动对电力的需求。在过去的几个月里，我们在生成式AI，特别是所有这些复杂的工作负载中看到的一切，感觉都是在加快速度的。”

Haas表示，Arm参与了美日联合资助的AI研究计划，该计划规模达到1.1亿美金，其中Arm为计划贡献了2500万美金。Arm将在控制功耗和相关成本方面发挥核心作用。Arm已经证明，其架构可以使数据中心的能源效率提高15%。他说，这些类型的节约也可以转化为AI工作负载。

Haas指出，目前现代数据中心每年要消耗约460太瓦时的电力，到2030年，这一数字可能会增加两倍。他表示，数据中心目前消耗的电力约占全球电力需求的4%，如果不加以控制，这一比例可能会上升至25%。

这也是有代价的。在斯坦福大学最新的AI指数报告中，研究人员写道，“训练这些巨型模型的成本呈现出指数级的增长”，并指出，谷歌的Gemini Ultra训练成本约为1.91亿美元，OpenAI的GPT-4的训练成本估计为7800万美元。相比之下，“最初的Transformer模型引入了几乎所有现代大型语言模型的基础架构，成本约为900美元”。

能效和定制化将推动ARM在人工智能领域发挥关键作用

Haas说，这些成本只会有增无减。OpenAI和Google等AI公司致力于实现通用型人工智能(AGI)，即AI系统可以像人类一样或更好地进行推理、思考、学习和执行，这将需要更大的、更复杂的模型，需要输入更多数据，这些都会增加功耗。

“GPT-3和GPT-4相比有多么复杂，GPT-4需要十倍的数据、更大的尺寸、更长的token等等。但就其完成令人惊叹的事情这个能力而言，包括思考、背景和判断，仍然是相当有限的。模型需要不断进化，并且在某种程度上，需要在数据集方面变得更加复杂。除非你进行越来越多的训练，否则是无法真正做到这一点的。这是良性的循环。为了变得更聪明、将其从模型中推进并进行更多研究，你只需要进行越来越多的训练即可。在接下来的几年里，推进这种训练所需的计算量将会非常多，而且相对于你运行模型的方式来说，感觉不会有任何重大的根本性变化。”

最近几周，Arm、英特尔和Nvidia相继推出了新的平台，旨在满足日益增长的AI功率需求，包括在边缘进行更多模型训练和推理、而边缘数据的生成和存储越来越多所带来的压力。Arm本月推出了Ethos-U85神经处理单元(NPU)，承诺比前代产品性能提高4倍，能效提高20%。

同一天，英特尔推出了Gaudi 3 AI加速器和Xeon 6 CPU，首席执行官Pat Gelsinger认为，该芯片的功能和开放系统的策略将按照英特尔的方式推动AI工作负载的发展。Haas不太确定，他说“英特尔和AMD可能很难做到，因为他们只是在构建标准化的产品，以及打造一个插入了连接到英特尔或AMD CPU的Nvidia H100加速器这个伟大想法。”

Haas表示，对数据中心效率的更高需求也推动了定制芯片这一发展趋势，他指出，大多数芯片都是采用Arm的Neoverse架构构建的，包括亚马逊的Graviton处理器、谷歌云的Axion、微软Azure的Cobalt和Oracle Cloud的Ampere，所有这些不仅可以提高性能和效率，还可以提高AI工作负载所需的集成。

“现在，你基本上可以针对数据中心打造一种AI自定义部署方式，以几乎任何你想要从中获得巨大性能的方式对其进行配置，这些定制芯片是我们前进发展的机会。”

能效和定制化将推动ARM在人工智能领域发挥关键作用

他提到了Nvidia上个月推出专用于AI的Grace Blackwell GB200加速器，其中包括2个Nvidia B200 Tensor Core GPU，通过900 GB/s NVLink互连连接到基于Arm的Grace CPU。

Haas说：“在某种程度上，Grace-Blackwell是一款定制芯片，因为之前的H1 100基本上是插入机架并与X86处理器相连的。现在Grace-Blackwell已经高度集成到使用Arm的产品中。Arm将成为其中的核心，因为Arm所实现的集成水平以及定制能力，将真正能够优化最高效的工作负载类型。以Grace-Blackwell为例，在该架构中，通过在NVLink上使用CPU和GPU，你可以开始解决有关内存带宽的一些关键问题，因为最终这些巨型模型需要大量的内存访问才能运行推理。”

他表示，与大型语言模型中的H100 GPU相比，Arm架构实现的系统级设计优化有助于将功耗降低25倍，并将每个GPU的性能提高30倍。在AI时代，这种定制是必要的，因为创新和采用的步伐只会加快而不会停下。

“在某种程度上，我们整个行业面临的挑战之一就是，虽然这些基础模型变得越来越智能，而且创新的步伐非常快，但开发新芯片是需要一定时间的，建立新的数据中心也需要一定的时间，建立新的配电能力需要大量的时间。确保能够以尽可能多的灵活性来设计芯片，这是一项非常艰巨的任务，但眼下这正在发生，正在以令人难以置信的速度发生。”

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

能效和定制化将推动ARM在人工智能领域发挥关键作用

来源：至顶网计算频道

2024

04/18

15:28

分享

点赞

联想集团混合式AI实践获权威肯定，CES期间获评“全球科技引领企业”

CES上杨元庆首谈AGI，碾压人类的叙事不会让AI更聪明

CES 2026 | 重大更新：NVIDIA DGX Spark开启“云边端”模式

Gmail新增Gemini驱动AI功能，智能优先级和摘要来袭

研究发现商业AI模型可完整还原《哈利·波特》原著内容

Razer在2026年CES展会推出全息AI伴侣项目

CES 2026：英伟达新架构亮相，AMD发布新芯片，Razer推出AI奇异产品

通过舞蹈认识LimX Dynamics的人形机器人Oli

谷歌为Gmail搜索引入AI概览功能并推出实验性AI智能收件箱

DuRoBo Krono：搭载AI助手的智能手机尺寸电子阅读器

OpenAI推出ChatGPT Health医疗问答功能

Anthropic寻求3500亿美元估值融资100亿美元

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: