十多年前,Arm的高管看到数据中心能源成本飙升,意识到有机会扩展其同名片上系统的低功耗架构,这个系统从一开始就主导了移动电话市场并占领了嵌入式设备市场,从PowerPC进入企业服务器。
这是为了打造功耗更低、更便宜、且更具延展性的英特尔Xeon和AMD Epyc CPU的替代品。
Arm公司花了多年的时间来开发这个架构,因为一些早期的Arm服务器处理器供应商倒闭或放弃其计划而倍感失望,同时也付出了巨大的努力来开发软件生态系统,不过现在,Arm已经在本地系统和云数据中心站稳了脚跟。
Arm在公布2月份最新季度财报的时候特别提到了自己平台化的市场策略,指出在2016年Arm的收入中至少有三分之二是来自移动领域的通用CPU。现在,Arm已经拥有针对多个市场的平台,包括云和网络系统,并在高性能计算领域取得了不错的成绩,富士通的A64FX处理器就是基于Armv8.2-A架构的,为代号Fugaku的系统提供支持,这个是最近Top500榜单中位列第四的超级计算机。
随着AI的兴起,Arm公司首席执行官Rene Haas也看到了其中的机会。Haas表示,模型现在消耗了大量的电力,未来只会有增无减。
他说:“我花了很多时间与这些公司的CEO交谈,电力问题一直是每个人最关心的问题,他们都在寻找不同的方法来解决这个问题,因为我们认为,AI可以带来的一切好处都是相当巨大的。为了获得越来越多的智能、更好的模型、更好的预测性、添加上下文、学习能力等等,这对计算的需求不断增加,显然也会推动对电力的需求。在过去的几个月里,我们在生成式AI,特别是所有这些复杂的工作负载中看到的一切,感觉都是在加快速度的。”
Haas表示,Arm参与了美日联合资助的AI研究计划,该计划规模达到1.1亿美金,其中Arm为计划贡献了2500万美金。Arm将在控制功耗和相关成本方面发挥核心作用。Arm已经证明,其架构可以使数据中心的能源效率提高15%。他说,这些类型的节约也可以转化为AI工作负载。
Haas指出,目前现代数据中心每年要消耗约460太瓦时的电力,到2030年,这一数字可能会增加两倍。他表示,数据中心目前消耗的电力约占全球电力需求的4%,如果不加以控制,这一比例可能会上升至25%。
这也是有代价的。在斯坦福大学最新的AI指数报告中,研究人员写道,“训练这些巨型模型的成本呈现出指数级的增长”,并指出,谷歌的Gemini Ultra训练成本约为1.91亿美元,OpenAI的GPT-4的训练成本估计为7800万美元。相比之下,“最初的Transformer模型引入了几乎所有现代大型语言模型的基础架构,成本约为900美元”。
Haas说,这些成本只会有增无减。OpenAI和Google等AI公司致力于实现通用型人工智能(AGI),即AI系统可以像人类一样或更好地进行推理、思考、学习和执行,这将需要更大的、更复杂的模型,需要输入更多数据,这些都会增加功耗。
“GPT-3和GPT-4相比有多么复杂,GPT-4需要十倍的数据、更大的尺寸、更长的token等等。但就其完成令人惊叹的事情这个能力而言,包括思考、背景和判断,仍然是相当有限的。模型需要不断进化,并且在某种程度上,需要在数据集方面变得更加复杂。除非你进行越来越多的训练,否则是无法真正做到这一点的。这是良性的循环。为了变得更聪明、将其从模型中推进并进行更多研究,你只需要进行越来越多的训练即可。在接下来的几年里,推进这种训练所需的计算量将会非常多,而且相对于你运行模型的方式来说,感觉不会有任何重大的根本性变化。”
最近几周,Arm、英特尔和Nvidia相继推出了新的平台,旨在满足日益增长的AI功率需求,包括在边缘进行更多模型训练和推理、而边缘数据的生成和存储越来越多所带来的压力。Arm本月推出了Ethos-U85神经处理单元(NPU),承诺比前代产品性能提高4倍,能效提高20%。
同一天,英特尔推出了Gaudi 3 AI加速器和Xeon 6 CPU,首席执行官Pat Gelsinger认为,该芯片的功能和开放系统的策略将按照英特尔的方式推动AI工作负载的发展。Haas不太确定,他说“英特尔和AMD可能很难做到,因为他们只是在构建标准化的产品,以及打造一个插入了连接到英特尔或AMD CPU的Nvidia H100加速器这个伟大想法。”
Haas表示,对数据中心效率的更高需求也推动了定制芯片这一发展趋势,他指出,大多数芯片都是采用Arm的Neoverse架构构建的,包括亚马逊的Graviton处理器、谷歌云的Axion、微软Azure的Cobalt和Oracle Cloud的Ampere,所有这些不仅可以提高性能和效率,还可以提高AI工作负载所需的集成。
“现在,你基本上可以针对数据中心打造一种AI自定义部署方式,以几乎任何你想要从中获得巨大性能的方式对其进行配置,这些定制芯片是我们前进发展的机会。”
他提到了Nvidia上个月推出专用于AI的Grace Blackwell GB200加速器,其中包括2个Nvidia B200 Tensor Core GPU,通过900 GB/s NVLink互连连接到基于Arm的Grace CPU。
Haas说:“在某种程度上,Grace-Blackwell是一款定制芯片,因为之前的H1 100基本上是插入机架并与X86处理器相连的。现在Grace-Blackwell已经高度集成到使用Arm的产品中。Arm将成为其中的核心,因为Arm所实现的集成水平以及定制能力,将真正能够优化最高效的工作负载类型。以Grace-Blackwell为例,在该架构中,通过在NVLink上使用CPU和GPU,你可以开始解决有关内存带宽的一些关键问题,因为最终这些巨型模型需要大量的内存访问才能运行推理。”
他表示,与大型语言模型中的H100 GPU相比,Arm架构实现的系统级设计优化有助于将功耗降低25倍,并将每个GPU的性能提高30倍。在AI时代,这种定制是必要的,因为创新和采用的步伐只会加快而不会停下。
“在某种程度上,我们整个行业面临的挑战之一就是,虽然这些基础模型变得越来越智能,而且创新的步伐非常快,但开发新芯片是需要一定时间的,建立新的数据中心也需要一定的时间,建立新的配电能力需要大量的时间。确保能够以尽可能多的灵活性来设计芯片,这是一项非常艰巨的任务,但眼下这正在发生,正在以令人难以置信的速度发生。”
好文章,需要你的鼓励
戴尔在约一年之前推出了其Apex Red Hat OpenShift服务,支持在戴尔PowerEdge服务器上运行Red Hat OpenShift容器编排服务及带有SSD的PowerFlwx块存储。APEX是戴尔提供的一组服务,通过类似公有云的订阅模式提供计算、存储和网络设备。
第四次农业革命即将到来。包括物联网(IoT)部署(即用于收集和传输数据的数字化设备)以及AI在内的技术进步,正将效率推向新的顶点,并有望再次从根本上改变人类宰治整个地球的具体方式。
通过收购 Cradlepoint 和 Ericom 时所继承的知识产权、人力资本、渠道合作伙伴关系和客户关系(爱立信称全球有 36,000 多家企业)仍然是其发展主张的核心,并且基本上保持不变——尽管要将三家公司一个整体运作需要大量的后勤工作,但三家公司的合并同样是为了将爱立信的技术和专业知识转化为其服务属性。
沃达丰发布的《2024年顺应未来报告》(以下简称“顺应未来”报告)中揭示了一个激动人心的趋势:中国企业在拥抱数字化转型方面表现积极,在亚太地区排名第二,仅次于新加坡。然而,报告也引发了人们的疑问:人工智能的迅速发展究竟是信任的催化剂,还是担忧的制造者?中国企业如何在科技创新与社会责任之间取得平衡,并利用技术赢得消费者信任,实现长期增长?