十多年前,Arm的高管看到数据中心能源成本飙升,意识到有机会扩展其同名片上系统的低功耗架构,这个系统从一开始就主导了移动电话市场并占领了嵌入式设备市场,从PowerPC进入企业服务器。
这是为了打造功耗更低、更便宜、且更具延展性的英特尔Xeon和AMD Epyc CPU的替代品。
Arm公司花了多年的时间来开发这个架构,因为一些早期的Arm服务器处理器供应商倒闭或放弃其计划而倍感失望,同时也付出了巨大的努力来开发软件生态系统,不过现在,Arm已经在本地系统和云数据中心站稳了脚跟。
Arm在公布2月份最新季度财报的时候特别提到了自己平台化的市场策略,指出在2016年Arm的收入中至少有三分之二是来自移动领域的通用CPU。现在,Arm已经拥有针对多个市场的平台,包括云和网络系统,并在高性能计算领域取得了不错的成绩,富士通的A64FX处理器就是基于Armv8.2-A架构的,为代号Fugaku的系统提供支持,这个是最近Top500榜单中位列第四的超级计算机。
随着AI的兴起,Arm公司首席执行官Rene Haas也看到了其中的机会。Haas表示,模型现在消耗了大量的电力,未来只会有增无减。
他说:“我花了很多时间与这些公司的CEO交谈,电力问题一直是每个人最关心的问题,他们都在寻找不同的方法来解决这个问题,因为我们认为,AI可以带来的一切好处都是相当巨大的。为了获得越来越多的智能、更好的模型、更好的预测性、添加上下文、学习能力等等,这对计算的需求不断增加,显然也会推动对电力的需求。在过去的几个月里,我们在生成式AI,特别是所有这些复杂的工作负载中看到的一切,感觉都是在加快速度的。”
Haas表示,Arm参与了美日联合资助的AI研究计划,该计划规模达到1.1亿美金,其中Arm为计划贡献了2500万美金。Arm将在控制功耗和相关成本方面发挥核心作用。Arm已经证明,其架构可以使数据中心的能源效率提高15%。他说,这些类型的节约也可以转化为AI工作负载。
Haas指出,目前现代数据中心每年要消耗约460太瓦时的电力,到2030年,这一数字可能会增加两倍。他表示,数据中心目前消耗的电力约占全球电力需求的4%,如果不加以控制,这一比例可能会上升至25%。
这也是有代价的。在斯坦福大学最新的AI指数报告中,研究人员写道,“训练这些巨型模型的成本呈现出指数级的增长”,并指出,谷歌的Gemini Ultra训练成本约为1.91亿美元,OpenAI的GPT-4的训练成本估计为7800万美元。相比之下,“最初的Transformer模型引入了几乎所有现代大型语言模型的基础架构,成本约为900美元”。
Haas说,这些成本只会有增无减。OpenAI和Google等AI公司致力于实现通用型人工智能(AGI),即AI系统可以像人类一样或更好地进行推理、思考、学习和执行,这将需要更大的、更复杂的模型,需要输入更多数据,这些都会增加功耗。
“GPT-3和GPT-4相比有多么复杂,GPT-4需要十倍的数据、更大的尺寸、更长的token等等。但就其完成令人惊叹的事情这个能力而言,包括思考、背景和判断,仍然是相当有限的。模型需要不断进化,并且在某种程度上,需要在数据集方面变得更加复杂。除非你进行越来越多的训练,否则是无法真正做到这一点的。这是良性的循环。为了变得更聪明、将其从模型中推进并进行更多研究,你只需要进行越来越多的训练即可。在接下来的几年里,推进这种训练所需的计算量将会非常多,而且相对于你运行模型的方式来说,感觉不会有任何重大的根本性变化。”
最近几周,Arm、英特尔和Nvidia相继推出了新的平台,旨在满足日益增长的AI功率需求,包括在边缘进行更多模型训练和推理、而边缘数据的生成和存储越来越多所带来的压力。Arm本月推出了Ethos-U85神经处理单元(NPU),承诺比前代产品性能提高4倍,能效提高20%。
同一天,英特尔推出了Gaudi 3 AI加速器和Xeon 6 CPU,首席执行官Pat Gelsinger认为,该芯片的功能和开放系统的策略将按照英特尔的方式推动AI工作负载的发展。Haas不太确定,他说“英特尔和AMD可能很难做到,因为他们只是在构建标准化的产品,以及打造一个插入了连接到英特尔或AMD CPU的Nvidia H100加速器这个伟大想法。”
Haas表示,对数据中心效率的更高需求也推动了定制芯片这一发展趋势,他指出,大多数芯片都是采用Arm的Neoverse架构构建的,包括亚马逊的Graviton处理器、谷歌云的Axion、微软Azure的Cobalt和Oracle Cloud的Ampere,所有这些不仅可以提高性能和效率,还可以提高AI工作负载所需的集成。
“现在,你基本上可以针对数据中心打造一种AI自定义部署方式,以几乎任何你想要从中获得巨大性能的方式对其进行配置,这些定制芯片是我们前进发展的机会。”
他提到了Nvidia上个月推出专用于AI的Grace Blackwell GB200加速器,其中包括2个Nvidia B200 Tensor Core GPU,通过900 GB/s NVLink互连连接到基于Arm的Grace CPU。
Haas说:“在某种程度上,Grace-Blackwell是一款定制芯片,因为之前的H1 100基本上是插入机架并与X86处理器相连的。现在Grace-Blackwell已经高度集成到使用Arm的产品中。Arm将成为其中的核心,因为Arm所实现的集成水平以及定制能力,将真正能够优化最高效的工作负载类型。以Grace-Blackwell为例,在该架构中,通过在NVLink上使用CPU和GPU,你可以开始解决有关内存带宽的一些关键问题,因为最终这些巨型模型需要大量的内存访问才能运行推理。”
他表示,与大型语言模型中的H100 GPU相比,Arm架构实现的系统级设计优化有助于将功耗降低25倍,并将每个GPU的性能提高30倍。在AI时代,这种定制是必要的,因为创新和采用的步伐只会加快而不会停下。
“在某种程度上,我们整个行业面临的挑战之一就是,虽然这些基础模型变得越来越智能,而且创新的步伐非常快,但开发新芯片是需要一定时间的,建立新的数据中心也需要一定的时间,建立新的配电能力需要大量的时间。确保能够以尽可能多的灵活性来设计芯片,这是一项非常艰巨的任务,但眼下这正在发生,正在以令人难以置信的速度发生。”
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。