Nvidia今天宣布广泛推出下一代DGX超级计算平台Nvidia DGX Cloud,使企业能够访问Oracle Cloud Infrastructure及其云服务上的数千个GPU。
>
Nvidia表示,今年3月在Nvidia GTX大会上公布的DGX Cloud是一项云托管的AI超级计算服务,让企业客户可以获得他们开始训练那些面向生成式AI和其他应用的最先进模型所需的一切。
该服务基于Nvidia广受欢迎的DGX平台,DGX是一种专用硬件产品,企业可以购买并设置在自己的本地数据中心运行。借助 DGX Cloud,企业不再需要等着直接购买昂贵且频繁需要使用的平台,而是可以按月租用AI工作负载所需的基础设施。换句话说,Nvidia正在向更多企业提供它的AI超级计算机,包括那些无力自行部署和管理其系统的企业。
Nvidia解释说,DGX Cloud的每个实例都支持8个80 GB Tensor Core GPU,意味着每个节点有640 GB的GPU内存。该平台构建在高性能、低延迟的网络结构之上,确保工作负载可以跨互连系统集群进行扩展,通过这种方式,多个DGX Cloud实例就可以充当一个巨大的GPU来处理最苛刻的工作负载。
DGX Cloud平台与Nvidia AI Enterprise软件配合使用,让客户可以访问100多个AI框架和预训练模型,这样他们就可以构建、完善和操作定制的大型语言,并且用他们自己专有的数据训练生成式AI模型,用于独特的、特定领域的任务。
Nvidia还提供了对Base Command软件的访问,用于管理和监控DGX Cloud上的训练工作负载,确保DGX Cloud可以与本地DGX平台协同工作,从而让企业在需要时可以把这些资源组合起来。
Nvidia此前曾宣布,单个DGX Cloud实例的起价为每月36999美元,并且可以根据客户需求立即扩展。
DGX Cloud率先登陆Oracle的云基础设施,随后是微软的Azure平台上,以及Google Cloud。目前Nvidia还没有提及云行业领导者AWS是否也将托管DGX Cloud。
Constellation Research副总裁兼首席分析师Andy Thurai表示,随着企业希望构建更大、更好的生成式AI模型,单个GPU集群已经不足以满足他们的需求了,因此超级计算机就变得很有意义。他指出,Nvidia并不是唯一一家走超级计算机路线的公司,HPE(及其Cray)和Cerebras Systems等初创公司已经证明了这一点。
Thurai表示,尽管Nvidia在AI训练领域占据主导地位,但实际上可能面临来自这些竞争对手的激烈竞争。他说:“就HPE而言,GreenLake for Large Language Models产品可能更具吸引力,因为它更环保,碳足迹接近于零。相比之下,Nvidia的超级计算机集群是一个巨大的能源消耗体。”
Thurai指出,这可能会在某些高性能计算AI用例中产生影响,例如基因组分析、药物发现和蛋白质模型,这些都需要高强度的计算能力。
尽管如此,Nvidia仍然是迄今为止最重要的AI训练基础设施提供商,因此DGX Cloud看起来与其他任何事情一样,都是一项战略性的举措。Thurai解释说:“鉴于GPU的供应短缺和极高的需求,Nvidia并不想出售芯片并赚取数万亿美元,而是希望拥有这些芯片并将其作为服务出租以赚取更多的钱。”
然而,Thurai质疑Nvidia按月租用DGX Cloud的做法对于某些客户来说是否太过分了。相比之下,HPE和Cerebras都是计划通过即用即付的模式提供服务。他说:“月租可能会吸引一些非常大的语言模型构建者,但这是一个臃肿且非常昂贵的提议,被许多企业视为矫枉过正。”
无论如何,Nvidia相信,DGX Cloud的上市将为生成式AI带来巨大的福音,加速推进生成式AI的潜在用例。Nvidia指出,该平台的早期采用者已经取得了一些令人印象深刻的成就。
例如,有多家医疗公司一直在使用DGX Cloud训练蛋白质模型并加速药物发现和临床报告。与此同时,有些金融服务公司正在使用该平台优化投资组合、预测趋势、构建推荐引擎和智能聊天机器人。还有保险公司使用DGX Cloud构建可以自动化大部分索赔流程的模型。
Moor Insights & Strategy分析师Patrick Moorhead在Nvidia提供的评论中表示,快速采用生成式AI已经成为企业的一项关键业务需求,许多企业一直在热切等待DGX Cloud的推出。他补充说:“Nvidia DGX Cloud的上市提供了一个新的、几乎可以即时访问的AI超级计算资源池。”
好文章,需要你的鼓励
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面
“未来软件定义汽车”的设想也成为马丁当前运营路线的指导方针,且高度关注数据、零件和资产管理等议题。