Jeffrey Burt
2022年11月8日
众所周知,超大规模企业和云构建商正在成为IT市场中数据中心硬件板块的最大推动力量。考虑到他们的规模和他们提供的服务定价,云计算在HPC领域发挥的作用变得越来越重要也就不足为奇了。

HPC供应商Atos就是在这个方向上前进的供应商之一。该公司去年收购了Nimbix、Visual BI和Ideal GRP,将其业务扩展到云计算及技术服务等其他领域。
今年,Google Cloud推出了一个开源工具包,这个工具包的名字很恰如其分:Cloud HPC工具包,目标是让HPC单元更容易构建用于训练和建模计算集群。
而Rescale去年获得了1.05亿美元的资金支持,让云HPC的想法变得更加可信。
Hyperion Research的分析师在他们对HPC市场的最新分析中表示,更大的、健康的HPC市场的规模正在逼近350亿美元,云计算在其中的占比仍然相对较小。如下图所示,服务器仍然占据支出的42%以上,其次是存储,占比17.2%。接下来是云计算,占比14.7%,只比应用程序略胜一筹。
如他们所说,HPC领域的云支出增长率五年预测平均值为每年17.6%,到2026年将超过110亿美元,在整个HPC市场中,和本地支出相比规模仍然较小,但增长势头更猛。
Hyperion的首席执行官Earl Joseph表示,增长加速是在2021年云计算和HPC发生重大转变之际出现的。
Joseph在一次虚拟简报中对记者表示:“在过去十年中,许多客户都要求我们观察市场,看看本地支出何时能够真正转移到云端。”“直到去年,只有很少一些一次性的例子,但是几乎所有的云支出都是站点的新预算。我们去年第一次看到有相当多的人决定将他们的本地支出转向云端。在大多数情况下,这是延迟采购,或者在当前系统上略微减少支出,或者在系统中采购不同的东西。”
然而,他表示,“这大大增加了云支出的增长。与此同时,我们确实预计本地支出将非常强劲,因为转移的资金数量并不大,但是这是我们第一次看到本地预算(或者部分预算)向云端转移。”
在达拉斯SC22超级计算展前一周,一份关于整个行业的更大的报告显示了HPC领域的云支出。这份最新的报告——Hyperion从COVID-19疫情期间的季度报告恢复到每年两次报告的节奏——中的大部分内容与该分析公司之前的报告大同小异。HPC领域似乎正在从疫情的影响中反弹,这在一定程度上得归功于OEM要应对供应链困境。
他们的分析师还深入研究了百万兆次级市场、美国和中国之间的持续竞争以及欧洲为未来制定的百万兆次级计划。
Hyperion研究总监Alex Norton表示,对于云计算,计算支出约占60%,其中专门用于存储的组件或者在云端运行工作负载的各个方面(例如持久存储)约占三分之一。就工作负载而言,Hyperion发现所有不同应用程序都得到了高度采用,不过AI应用程序是一个关键的增长动力,特别是考虑到可以访问云中可用的公共数据集和数据聚合工具就更是如此。
Norton表示,组织使用云计算的方式也在发生转变。大约57%的HPC云支出集中在了实例上,预留实例产生的收入略高于竞价实例。Norton表示,部分原因是由于预留实例更昂贵,但也是因为组织更了解如何让云计算适应其整体HPC工作,并且倾向于针对特定工作负载的预留实例。
过去,云计算被视为是对本地环境的补充。
他表示:“它主要用于应对突发的使用高峰期。”“然而,在过去几年中,通过多次最终用户研究,我们看到的是,随着最终用户更多地使用云计算,他们的本地部署或者本地路径图正在发生改变。我们看到云计算在某些方面直接影响了预算……用户站点将云计算视为仅次于本地系统的关键资源。当他们考虑接下来的部署时,他们会考虑哪些工作负载可以运行在云端,哪些工作负载最好运行在本地系统上,以及他们如何在不同平台和资源中分配预算、技能和工作负载,以最好地运行HPC应用。”
此外,随着云中HPC能力的提升,组织可以更好地利用云计算的优势。每个站点都必须平衡多个因素,包括预算、性能需求、时间限制和技能组合。
Norton表示:“当他们考虑所有这些因素的时候,最终将是一个优化问题,‘我在云端的什么地方投入我的金钱和时间?我为什么要优化我的本地系统,平衡点在哪里?’”“最终,每个站点都必须经过试验,弄明白哪些工作负载可以在云端以经济高效、高性能的方式很好地工作,而哪些工作负载是本地部署的重点。”
他们还必须确定适当的组合,不仅包括本地数据中心和公共云,还包括其他的参与者,例如托管设施、托管服务供应商和托管HPC系统的行业垂直供应商。
Hyperion的Joseph表示,本地HPC服务器领域的工作组板块未来五年的平均增长预计平均为6.9%,但即使是这个板块也感受到了云计算的日益增长。他表示,超级计算机、部门和部门板块都显示出6.6%至9.4%的增长。
然而,工作组板块的年增长率预计为1.4%。部分的原因是简单的经济考量。
Joseph表示:“每当经济疲软或衰退的时候,工作组受到的打击最大,恢复需要的时间也最长。”“我们正处于这样的情况,很多工作组的买家正在考虑云计算,而且他们发现云计算为他们提供了一些价值巨大的机会,因此我们同时看到了工作组的经济压力和向云端的迁移。特别是如果你的工作负载不稳定,或者考虑到COVID的影响,可能要停止运营两个月,云计算让你可以非常快速地开启和停止支出。”
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。