HPE近期宣布将推出面向大语言模型(LLM)的人工智能云,这也凸显出该公司制定的差异化战略,希望借此为自家高性能计算业务拓展出持续增长的市场空间。
尽管HPE在超级计算知识产权方面确实拥有一定储备和优势,但公有云厂商在AI领域仍然保持着实质性的领先。毕竟OpenAI的ChatGPT等生成式AI完全依赖于云基础设施及其海量算力资源。于是问题就非常明确:HPE能否提供独特的算力和卖点,在这场竞争中占据主动并开辟新的利润通道?
在本文中,我们将解读HPE在日前Discover大会上发布的LLM即服务公告,尝试从中为以下问题找出答案:HPE的战略是否能够代替公有云及私有云,成为AI模型部署的可行方案?抑或说,HPE最终只能成为市场上的小众玩家?就这个问题,我们邀请到CUBE分析师Rob Strechay和Constellation Research公司副总裁兼首席分析师Andy Thurai共同讨论。
2014年,即惠普与HPE正式拆分之前,惠普曾宣布推出Helion公有云。但项目在短短两年后即被关闭,并将公有云市场拱手让予亚马逊云科技。当时HPE落败的原因很明确:缺乏能够与亚马逊竞争的规模化和差异化优势。
HPE无疑坚信这次的尝试会有所不同。在上周的Discover大会上,HPE将GreenLake即服务平台扩展至AI云市场,希望能通过HPE超级计算机支持的多租户服务为客户提供大语言模型。
HPE目前正与来自德国的初创公司Aleph Alpha GmbH合作,后者专门研究大语言模型,且重点关注可解释性问题。HPE认为,可解释性对于特定领域的AI应用战略至关重要。HPE的首款产品将接入Luminous,即Aleph Alpha预训练的LLM。企业客户可以导入自己的数据,通过专有信息来训练和微调出适合需求的自定义模型。
我们邀请到Strechay和Thurai解读这份公告,并谈谈自己的看法。以下为此次对话的内容摘要:
讨论的核心,是HPE计划以“即服务”模式开放Cray超级计算基础设施,降低市场上的高性能计算资源获取门槛。
以下几个关键点值得注意:
分析师们对于HPE公布的战略持谨慎乐观态度,指出该战略有望彻底改变大型工作负载和高性能计算任务的处理方式。但二人也都认为,在得出任何实质性结论之前,HPE还须提供关于执行计划的更多细节,特别是围绕MLOps的细节。归根结底,决定战略成败的永远在于执行。
Strechay和Thurai还进一步讨论了HPE计划通过其新LLM即服务产品解决的相关工作负载,包括气候建模、生物/生命科学、医疗保健和潜在的财务建模。分析师们同时分享了HPE与Aleph Alpha这家不太知名的初创公司间的合作关系。
以下几个关键点值得注意:
HPE的新战略有望让超级计算即服务在气候、医疗保健和生物/生命科学等重要领域成为现实。尽管合作伙伴并非主流厂商,但与Aleph Alpha的协同已经标志着HPE在处理大规模AI工作负载方面迈出了坚实的一步。不过虽然方向上没什么问题,但HPE的宣传材料缺少对各类AI、机器学习和深度学习工作负载以及整体生态系统的细节处理方法,所以前景仍然不够明朗。
我认为在欧洲,环境可持续性政策将对HPE有很大帮助。相比之下,HPE在北美市场的优势可能相对不明显。 – Rob Strechay
HPE的基本思路非常简单:高性能计算与AI领域的碰撞,将为其带来独一无二的竞争优势。事实上,HPE在高性能计算领域确实处于领先地位,具体参见下图。
HPE凭借其Frontier和Lumi系统超算,在全球超级计算机榜单上分列第一和第三位。二者均使用HPE的Slingshot互连,这也是系统中的一大关键差异化因素。
HPE还认为生成式AI这类工作负载的独特性,能够与自己掌握的超级计算专业知识良好契合。HPE人工智能首席技术官Eng Lim Goh博士对传统云工作负载和新一代AI工作负载间的区别,作出了这样的描述:
传统云服务模型是在大量计算机服务器上运行大量工作负载。但对于大语言模型,是在大量计算机服务器上运行单一工作负载。因此二者之间的可扩展性表现有很大差别。因此我们才需要引入超级计算专业知识,几十年来我们一直利用这些知识在众多计算机服务器上运行单一巨型工作负载。
以下是分析师们的讨论摘要:
Strechay和THurai深入研究了HPE在大语言模型市场中的积累和潜力,同时分析了未来可能面临的挑战。Strechay借鉴了该公司在处理大型应用方面的丰富经验,表示这些积累确实能为HPE带来一定优势。然而,Thurai似乎对HPE基于过往经验适应市场需求的能力持怀疑态度。
讨论中有以下几点值得注意:
HPE在管理广泛的通用应用程序和长期合作关系方面拥有丰富的经验和渊源,这可能为其进军大语言模型市场带来一定优势。然而,创新工作负载对于数据访问能力和市场竞争力也提出了严苛要求,HPE未必跨越得了这道障碍。尽管该公司拥有强大的超级计算机和存储资源,但目前无法确定其能否将这些资产真正转化成优于竞争对手的亮眼产品。
下面,我们来看看HPE目前的各条业务线,及其AI和高性能计算业务线的各自表现。请注意,HPE于2019年收购了Cray,之前几年还收购了Silicon Graphics,这些都是其在高性能计算领域占据领先的重要操作。
先看HPE最近一个季度的表现:高性能计算和AI业务价值数十亿美元,而且规模仍在不断增长,但本质上看仍仅仅维持着收支平衡。也就是说,虽然风光大盛、引人注目,但这部分业务还没有真正带来收益。智能边缘(Aruba)是目前另一颗耀眼的新星,年化收入超过50亿美元,经营利润高达27%。所以从吸金能力的角度看,这才是HPE最好的业务,产生的利润几乎与服务器业务持平。
HPE首席执行官Antonio Neri这样描述公司的优势:
只要认真观察公有云架构,就会发现它是一种大规模的传统网络架构,有干有叶,各种通用型工作负载在同样的架构之上运行并与数据对接。相比之下,LLM架构更适合AI原生架构,其网络结构将完全不同。这就是Slingshot的意义所在,该网络的运作方式同传统网络大相径庭。很明显,我们需要接入各个GPU或CPU的网卡,还要附带一大堆加速器。争用软件管理则须具备芯片可编程能力。Slingshot能够解决所有需求,是我们多年以来长期开发的心血和结晶。目前的公有云厂商大多还没有开发出自己的网络,而仍在使用Arista、思科或瞻博等公司的产品。我们则拥有专有网络。顺带一提,英伟达也有自己的专有网络。但我们的生态系统中其实包含多生态元素,能够为其提供全面支持。因此与其在公有云领域投入大量时间和精力去追赶,不如直接一步到位。另外还要注意,AI基础设施代表着一种完全不同的计算栈,比如说直浸式液冷设计等,总之代表着前所未有的设计思路。
下面是两位分析师的讨论总结:
关键问题在于,HPE专注于传统HPC工作负载的策略能否盈利。尽管HPE的网络和互连成果为其带来了潜在优势,但这些优势可能并不长久,毕竟商业组件的获取门槛不是特别高。数据中心液冷方面的专业知识倒是不错,但真正的问题还是取决于同竞争对手相比,HPE到底有没有将客户数据吸引至自家平台的能力。
接下来要探讨的问题是:HPE的服务到底能不能成为主流,还是说注定只是一场小众狂欢?
之前我们已经展示了部分企业技术研究数据,询问组织如何看待生成式AI与LLM,特别是已经在评估或者生产落地了哪些相关用例。请注意,34%的组织表示还没有进入评估阶段,我们认为这个比例确实高得超出预期。至于已经开始探索的受访者,主要用例就是大家能想到的那些:聊天机器人、代码生成、编写营销方案、总结文本等。
HPE对此倒是有不同观点。他们专注于非常具体的市场区间,面向那些拥有自己专有数据、希望利用这些数据训练模型,但又不想自行购买和管理超级计算基础设施成本的受众。HPE坚信,凭借自己手中独特的知识产权积累,他们能够提供比公有云服务商更加可靠、更具成本效益且可比肩云优势的新方案。
这就带来了新的问题:HPE到底有没有注意到,其提到的这些主流用例并不足以转化为HPE的资金收益?HPE的发展战略到底是否有利可图?
虽然我们主要对HPE的LLM策略采取观望和“搁置”的态度,但仍有以下几点值得关注:
HPE的战略主要面向AI市场上的特定领域——处理HPC工作负载的部分。考虑到其中涉及的特殊需求和复杂性,这片小众市场也有可观的盈利机会。然而,最终结果仍取决于HPE能否有效传达自身价值主张与市场趋势的一致性。
在Discover的主舞台上,我们听到了两种截然不同的观点:
AWS的Matt Wood与HPE掌门人Neri一起登上了舞台。但令人惊讶的是,Wood发言的大意是“随着时间推移,我们相信大部分工作负载将逐步转移至公有云。”没错,他就这么当着全体HPE客户的面表达了这样的观点。
随后Neri用半开玩笑的形式予以反驳,称“这个世界是很复杂的,老哥。而且会永远复杂下去。”
不知道大家看没看过《伴娘》这部电影,里面两位伴娘都想在对唱里压对方一头。这次关于LLM的讨论,AWS和HPE两派也颇有这种意味。HPE提出的概念是:超级计算工作负载与常规云工作负载不同,而HPE掌握着可靠、可持续、高效运行这类工作负载的专业知识。而AWS这边不光是Matt Wood,CEO Adam Selipsky也强调说LLM将完全依赖于公有云所提供的海量算力资源。
在《伴娘》一片的结尾,两位主角重归于好,所以这两种观点可能也各有空间。虽然我们相信LLM所对应的公有云市场将不断壮大,但对这种增量还很难给出量化评估。
两位分析师对此做出这样的解释:
我们相信HPE这种充分发挥自身优势(特别是在超级计算领域)的作法有其合理性。然而,在选定的AI市场领域内取得成功,恐怕将是一个长期的过程,而且需要在客户群体内为HPE塑造出AI参与者的人设。为此,该公司必须利用其分销渠道吸引更多以AI实力闻名的关键合作伙伴。
尽管在产品组合中广泛应用到AI,但HPE在AI领域的存在感并不算强。通过以下ETR数据,我们可以看到机器学习/AI市场上各家厂商的相应份额。虽然不见踪影,但HPE好在还有机会同技术领先者们携手合作、共享发展路径。
上图的纵轴所示,为净得分/份额趋势,以及机器学习/AI参与厂商在ETR数据集中的普遍度或者说“存在感”。首先值得关注的自然是三大云巨头:微软、AWS和谷歌,在图表当中也是一骑绝尘。它们无处不在,而且都在40%红色虚线的上方,代表着拥有强劲的AI业务势头。
Databricks明显也是调查当中的佼佼者。
OpenAI更加值得关注。我们浏览了7月份的ETR数据,可以看到OpenAI创下了新的记录,甚至在净得分上突破了之前Snowflake保持的极值。在接下来一段时间,OpenAI将成为绝对的主流,其势头甚至不输于IT领域的头部大厂。
HPE未能出现在榜单当中并不意外。也许随着时间的推移,该公司将逐步实现愿景,慢慢出现在甲骨文和IBM所处的位置。
下面来看两位分析师给出的观点:
HPE在AI领域的战略与各家竞争对手有所不同,其定位就是处理最重要、最复杂的模型,让客户充分利用HPE多年积累的计算、网络和存储技术优势。但HPE的这项战略能否成功仍是个未知数,至少还要一年时间才能评估HPE思路的有效性并确定客户反应。
最后,我们讨论了HPE在当前受关注领域所具备的竞争优势和面临的挑战。
讨论内容可以总结为:
总体而言,我们很高兴看到HPE在本届Discover上没有讨论量子计算。虽然噱头满满,但量子计算还远没有为实际应用做好准备,所以过多宣扬实在没啥意思。
HPE在AI和高性能计算市场的竞争优势,主要体现在其基础设施软件和处理大规模复杂模型的能力上。HPE在AI的部署和推理方面也具有潜在优势,且有望从未来各国对可持续性的关注中受益。然而,HPE仍面临着重大障碍,包括如何加强AI生态系统并说服客户将数据移交过来。
总的来说,我们对HPE在GreenLake中引入LLM即服务给予高度评价。此外,Neri领导下的HPE也开辟出了一条清晰的差异化竞争道路,随着时间推移应该有望转化为红利。HPE的AI云产品将在未来半年之内推出,目前还不清楚其集成度如何,因此我们将密切关注这个重要的成熟度指标。最后一个关键点在于,光是把HPC业务标记成AI还不够,HPE需要想办法真正从新战略中获取收益、赚到利润。
而这,才是真正决定成败的核心。
好文章,需要你的鼓励
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面
“未来软件定义汽车”的设想也成为马丁当前运营路线的指导方针,且高度关注数据、零件和资产管理等议题。