十多年前,Arm的高管看到数据中心能源成本飙升,意识到有机会扩展其同名片上系统的低功耗架构,这个系统从一开始就主导了移动电话市场并占领了嵌入式设备市场,从PowerPC进入企业服务器。
这是为了打造功耗更低、更便宜、且更具延展性的英特尔Xeon和AMD Epyc CPU的替代品。
Arm公司花了多年的时间来开发这个架构,因为一些早期的Arm服务器处理器供应商倒闭或放弃其计划而倍感失望,同时也付出了巨大的努力来开发软件生态系统,不过现在,Arm已经在本地系统和云数据中心站稳了脚跟。
Arm在公布2月份最新季度财报的时候特别提到了自己平台化的市场策略,指出在2016年Arm的收入中至少有三分之二是来自移动领域的通用CPU。现在,Arm已经拥有针对多个市场的平台,包括云和网络系统,并在高性能计算领域取得了不错的成绩,富士通的A64FX处理器就是基于Armv8.2-A架构的,为代号Fugaku的系统提供支持,这个是最近Top500榜单中位列第四的超级计算机。
随着AI的兴起,Arm公司首席执行官Rene Haas也看到了其中的机会。Haas表示,模型现在消耗了大量的电力,未来只会有增无减。
他说:“我花了很多时间与这些公司的CEO交谈,电力问题一直是每个人最关心的问题,他们都在寻找不同的方法来解决这个问题,因为我们认为,AI可以带来的一切好处都是相当巨大的。为了获得越来越多的智能、更好的模型、更好的预测性、添加上下文、学习能力等等,这对计算的需求不断增加,显然也会推动对电力的需求。在过去的几个月里,我们在生成式AI,特别是所有这些复杂的工作负载中看到的一切,感觉都是在加快速度的。”
Haas表示,Arm参与了美日联合资助的AI研究计划,该计划规模达到1.1亿美金,其中Arm为计划贡献了2500万美金。Arm将在控制功耗和相关成本方面发挥核心作用。Arm已经证明,其架构可以使数据中心的能源效率提高15%。他说,这些类型的节约也可以转化为AI工作负载。
Haas指出,目前现代数据中心每年要消耗约460太瓦时的电力,到2030年,这一数字可能会增加两倍。他表示,数据中心目前消耗的电力约占全球电力需求的4%,如果不加以控制,这一比例可能会上升至25%。
这也是有代价的。在斯坦福大学最新的AI指数报告中,研究人员写道,“训练这些巨型模型的成本呈现出指数级的增长”,并指出,谷歌的Gemini Ultra训练成本约为1.91亿美元,OpenAI的GPT-4的训练成本估计为7800万美元。相比之下,“最初的Transformer模型引入了几乎所有现代大型语言模型的基础架构,成本约为900美元”。
Haas说,这些成本只会有增无减。OpenAI和Google等AI公司致力于实现通用型人工智能(AGI),即AI系统可以像人类一样或更好地进行推理、思考、学习和执行,这将需要更大的、更复杂的模型,需要输入更多数据,这些都会增加功耗。
“GPT-3和GPT-4相比有多么复杂,GPT-4需要十倍的数据、更大的尺寸、更长的token等等。但就其完成令人惊叹的事情这个能力而言,包括思考、背景和判断,仍然是相当有限的。模型需要不断进化,并且在某种程度上,需要在数据集方面变得更加复杂。除非你进行越来越多的训练,否则是无法真正做到这一点的。这是良性的循环。为了变得更聪明、将其从模型中推进并进行更多研究,你只需要进行越来越多的训练即可。在接下来的几年里,推进这种训练所需的计算量将会非常多,而且相对于你运行模型的方式来说,感觉不会有任何重大的根本性变化。”
最近几周,Arm、英特尔和Nvidia相继推出了新的平台,旨在满足日益增长的AI功率需求,包括在边缘进行更多模型训练和推理、而边缘数据的生成和存储越来越多所带来的压力。Arm本月推出了Ethos-U85神经处理单元(NPU),承诺比前代产品性能提高4倍,能效提高20%。
同一天,英特尔推出了Gaudi 3 AI加速器和Xeon 6 CPU,首席执行官Pat Gelsinger认为,该芯片的功能和开放系统的策略将按照英特尔的方式推动AI工作负载的发展。Haas不太确定,他说“英特尔和AMD可能很难做到,因为他们只是在构建标准化的产品,以及打造一个插入了连接到英特尔或AMD CPU的Nvidia H100加速器这个伟大想法。”
Haas表示,对数据中心效率的更高需求也推动了定制芯片这一发展趋势,他指出,大多数芯片都是采用Arm的Neoverse架构构建的,包括亚马逊的Graviton处理器、谷歌云的Axion、微软Azure的Cobalt和Oracle Cloud的Ampere,所有这些不仅可以提高性能和效率,还可以提高AI工作负载所需的集成。
“现在,你基本上可以针对数据中心打造一种AI自定义部署方式,以几乎任何你想要从中获得巨大性能的方式对其进行配置,这些定制芯片是我们前进发展的机会。”
他提到了Nvidia上个月推出专用于AI的Grace Blackwell GB200加速器,其中包括2个Nvidia B200 Tensor Core GPU,通过900 GB/s NVLink互连连接到基于Arm的Grace CPU。
Haas说:“在某种程度上,Grace-Blackwell是一款定制芯片,因为之前的H1 100基本上是插入机架并与X86处理器相连的。现在Grace-Blackwell已经高度集成到使用Arm的产品中。Arm将成为其中的核心,因为Arm所实现的集成水平以及定制能力,将真正能够优化最高效的工作负载类型。以Grace-Blackwell为例,在该架构中,通过在NVLink上使用CPU和GPU,你可以开始解决有关内存带宽的一些关键问题,因为最终这些巨型模型需要大量的内存访问才能运行推理。”
他表示,与大型语言模型中的H100 GPU相比,Arm架构实现的系统级设计优化有助于将功耗降低25倍,并将每个GPU的性能提高30倍。在AI时代,这种定制是必要的,因为创新和采用的步伐只会加快而不会停下。
“在某种程度上,我们整个行业面临的挑战之一就是,虽然这些基础模型变得越来越智能,而且创新的步伐非常快,但开发新芯片是需要一定时间的,建立新的数据中心也需要一定的时间,建立新的配电能力需要大量的时间。确保能够以尽可能多的灵活性来设计芯片,这是一项非常艰巨的任务,但眼下这正在发生,正在以令人难以置信的速度发生。”
好文章,需要你的鼓励
本文探讨如何使用生成式AI和大语言模型作为倾听者,帮助用户表达内心想法。许多主流AI如ChatGPT、Claude等被设计成用户的"最佳伙伴",或试图提供心理健康建议,但有时用户只想要一个尊重的倾听者。文章提供了有效的提示词技巧,指导AI保持中性、尊重的态度,专注于倾听和理解,而非给出建议或判断。同时提醒用户注意隐私保护和AI的局限性。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
人工通用智能和超级人工智能的出现,可能会创造出一种全新的外星智能形态。传统AI基于人类智能模式构建,但AGI和ASI一旦存在,可能会选择创造完全不同于人类认知方式的新型智能。这种外星人工智能既可能带来突破性进展,如找到癌症治愈方法,也可能存在未知风险。目前尚不确定这种新智能形态是否会超越人类智能,以及我们是否应该追求这一可能改变人类命运的技术突破。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。