曾几何时,或者说就在短短几年之前,数据中心芯片市场还是个资金门槛极高但却相对简单的市场。CPU战团主要有英特尔、AMD和Arm,GPU阵营则是英伟达、AMD和英特尔等厂商的舞台。尽管AI初创公司数量可观,但普遍并未在数据中心领域建立起真正的话语权。
但最近一段时间,情况发生了巨大变化。
除了英特尔、AMD、英伟达和Arm等老面孔之外,芯片领域出现了更多选择。一方面是持续生成、体量庞大且不断增长的待分析数据素材,另一方面则是快速涌现的生成式AI与大语言模型——两股驱力交织之下催生出无数希望在市场上占据一席之地的芯片初创公司。
此外还有亚马逊云科技、即将推出Maia 100的微软以及掌握张量处理单元(TPU)的Google Cloud等超大规模基础设施运营商,他们都在努力打造自己的原研处理器方案。
市场上已经存在大量芯片可供选择,云基础设施服务商则在整合现有成果方面发挥着重要作用。目前,大约70%的AI工作负载都运行在云端,而且随着企业更多采用AI技术并扩展相关工作负载,这一数字预计还将保持增长。
在亚马逊云科技方面,其拥有自研的Trainium(顾名思义,用于训练类AI工作负载)与Inferentia(明显是面向AI推理用例),再加上旗下颇具知名度的Graviton CPU与Nitro DPU——这一切都要归功于其2015年收购的以色列芯片设计公司Annapurna。亚马逊云科技还掌握着大量英伟达GPU,即AI计算的基石。随着AI技术的兴起,特别是生成式AI技术的加速创新与应用,新的处理器环境正在形成,也要求亚马逊及其他云服务商不得不加以适应并尝试驾驭。
亚马逊云科技EC2产品管理总监Chetan Kapoor表示,亚马逊目前已做好使用英伟达GPU、Trainium和Inferentia的准备,但未来的发展方向仍须进一步探索。
Kapoor在采访中解释称,“我们正处于探索问题解决方法的早期阶段。目前可以确定的是,AI应用领域的实际需求正在快速增长,我们还有很大的空间继续提升英伟达产品的应用规模。与此同时,我们也将继续扩大原研Trainium和Inferentia芯片的容量。目前想要判断这部分市场的发展前景还为时过早,但我们认为最终结果应该不会是零和游戏。随着需求的指数级增长,我们的英伟达GPU集群规模将保持显著增长;而在另一方面,我们将继续寻找机会将Trainium和Inferentia引入各类外部及内部用例。”
与其他竞争对手一样,亚马逊云科技正在全力开发AI,而目前最大的问题在于该如何设定内部研发目标、又该怎样挑选市场投资对象。上个月末,亚马逊云科技向AI厂商Anthropic进一步投资27.5亿美元,意味着对其总投资已经达到40亿美元。几周之前,这家云巨头宣布Anthropic的Claude 3系列模型正在Amazon Bedrock AI托管服务之上运行。这与微软同OpenAI(投资超过100亿美元)以及谷歌同Anthropic(投资超过20亿美元)的合作伙伴关系可谓是遥相呼应。
为了运行该系列模型,亚马逊云科技坚持使用现有英伟达GPU配合自家芯片。而负责EC2硬件加速业务的Kapoor表示,亚马逊“将继续与其他提供商保持合作,采用英特尔或AMD等其他厂商带来的真正引人注目、而且能够为我们现有英伟达解决方案带来补充的产品。我们非常乐意在这部分应用场景内与各方开展合作。”
亚马逊云科技在最近的GTC 2024展会上进一步加大了对英伟达的支持力度,表示将与微软Azure、Google Cloud和甲骨文云基础设施一样,着手采用该GPU制造商推出的新款Blackwell GPU。其中最值得一提的当数GB200 Grace Blackwell超级芯片,这款产品搭载双B200 GPU,并通过600 GB/秒NVLink互连接入单块Grace CPU。
目前还不清楚其他AI芯片能否同样登陆亚马逊云科技的运行环境。Groq、Mythic及SambaNova Systems等厂商也在为AI工作负载开发处理器,但Kapoor表示问题的答案不仅取决于加速器本身。另一方面,OpenAI公司CEO Sam Altman也提出由该公司自行设计AI训练与推理芯片,这明显是看到市场对于英伟达GPU的需求猛增,因此想通过原研方式补充紧张供应、满足AI工作负载的运行需求。
他感叹道,“芯片制造真的非常困难,而构建服务器、管理并部署数万甚至数十万张加速器则是难上加难。而更具挑战性的,是在此基础之上建立起能够真实利用算力资源的开发者生态系统。根据我们的经验,芯片只是产品侧的一部分,并不足以决定一切。我们还需要考虑如何将芯片配置为计算平台、如何加以管理和扩展、找到其中最重要的影响因素、把握解决方案的易用性水平、衡量产品拥有哪些可用的开发者生态系统,以及客户能够以怎样的速度完成芯片部署及实际应用等等。”
生成式AI的加速普及背景,意味着组织根本不可能花费几个月时间学习并使用新的硬件架构。只有那些既易于上手、又具有成本效益的整体架构,才能得到受众群体的接纳和喜爱。
Kappor表示,“必须要以芯片为中心建立起开发者社区,才能在该领域产生真正的吸引力。如果有一家初创公司能够实现这一壮举,那可就太好了,而且他们必将获得市场成功。所以从这个角度来分析,未来真正能够胜出的芯片必须具备高性能、低成本、广泛可用且上手门槛极低——哪怕是对于老牌芯片巨头来说,同时满足这么多目标也将非常非常困难。”
但各组织正承受着巨大压力,必须采用AI以保持与竞争对手之间的相对关系。在这些企业看来,基础设施层面的AI工作负载运行决策,往往取决于实际解决方案的性能和成本水平。
Kappor解释称,“我们将看到这样的趋势:一部分客户只关注上市速度,而对对于支出优化问题表现得比较宽容。这部分客户往往更青睐基于英伟达的解决方案,因为这有助于他们尽快将产品投放市场。而在另一方面,我们也已经切实观察到了这种趋势,即部分客户会更多关注成本问题、承认自己拿不出更高的技术应用预算。在这种情况下,他们更倾向于寻求英伟达之外的替代性解决方案,在获取所需性能的同时将模型的训练和部署总成本削减30%甚至40%。正是由于存在这样的实际需求,我们及其他芯片合作伙伴的替代性解决方案才能在市场上占据一席之地。”
也就是说,市场对于英伟达产品的旺盛需求将持续存在。Kapoor表示,不少新出现的基础模型都是在GPU巨头的产品之上构建而成,毕竟研究和科学界在使用英伟达硬件和软件构建并训练AI模型方面拥有着丰富经验。此外,英伟达也在继续扩大其GPU系统在原始性能方面的优势。他解释称,这家GPU巨头“不仅非常擅长构建芯片,还特别精通系统设计,在性能优化方面也做得非常出色,因此保证了他们的客户能够从这些售价极为昂贵的加速器中获取最大收益。”
因此,超大规模基础设施运营商必须密切关注客户方面传来的信息。因为虽然目前约有70%的AI工作负载都运行在云端,但这一数字在未来几年还将继续增长。亚马逊云科技及其他厂商在英伟达A100及H100芯片上运行的系统已经极为复杂且规模化;而随着Blackwell的推出,其实际复杂度恐怕还将更上一层楼——这是因为Blackwell不仅需要配合液体冷却等机架集成技术,还带来了更高的部署密度。
Kapoor在采访中指出,“对于此类系统的设计、构建和实际部署,会带来更持久也更复杂的实际挑战,因此我们预计此前选择在本地自行部署系统的客户将会遇上大麻烦。他们可能不具备液冷基础设施,可能缺乏在原有机架空间内充分供电的能力。而我们将为客户承担卢所有高难度工作,并将这些资源通过API供其轻松使用和启动,这意味着将有更多受众倾向于直接选择云服务。安全方面的情况也差不多,目前我们已经在知识产权层面(通常体现为模型参数、权重和偏差等)做出严格的保障承诺,并表现出极强的保护意愿与能力,客户可以放心把自己的知识产权交由我们打理并随时进行访问。”
用于处理AI及机器学习工作负载的AI超级计算机也将很快面向企业客户敞开大门。根据相关报道,亚马逊云科技正在与英伟达合作构建“Project Ceiba”系统。另据报道,微软和OpenAI则正在规划“Stargate”星际之门超级计算机。甚至由多处数据中心共同组成的超大规模超级计算机也将在不久的未来与广大用户见面。
好文章,需要你的鼓励
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面
“未来软件定义汽车”的设想也成为马丁当前运营路线的指导方针,且高度关注数据、零件和资产管理等议题。