Nvidia今天宣布广泛推出下一代DGX超级计算平台Nvidia DGX Cloud,使企业能够访问Oracle Cloud Infrastructure及其云服务上的数千个GPU。
>
Nvidia表示,今年3月在Nvidia GTX大会上公布的DGX Cloud是一项云托管的AI超级计算服务,让企业客户可以获得他们开始训练那些面向生成式AI和其他应用的最先进模型所需的一切。
该服务基于Nvidia广受欢迎的DGX平台,DGX是一种专用硬件产品,企业可以购买并设置在自己的本地数据中心运行。借助 DGX Cloud,企业不再需要等着直接购买昂贵且频繁需要使用的平台,而是可以按月租用AI工作负载所需的基础设施。换句话说,Nvidia正在向更多企业提供它的AI超级计算机,包括那些无力自行部署和管理其系统的企业。
Nvidia解释说,DGX Cloud的每个实例都支持8个80 GB Tensor Core GPU,意味着每个节点有640 GB的GPU内存。该平台构建在高性能、低延迟的网络结构之上,确保工作负载可以跨互连系统集群进行扩展,通过这种方式,多个DGX Cloud实例就可以充当一个巨大的GPU来处理最苛刻的工作负载。
DGX Cloud平台与Nvidia AI Enterprise软件配合使用,让客户可以访问100多个AI框架和预训练模型,这样他们就可以构建、完善和操作定制的大型语言,并且用他们自己专有的数据训练生成式AI模型,用于独特的、特定领域的任务。
Nvidia还提供了对Base Command软件的访问,用于管理和监控DGX Cloud上的训练工作负载,确保DGX Cloud可以与本地DGX平台协同工作,从而让企业在需要时可以把这些资源组合起来。
Nvidia此前曾宣布,单个DGX Cloud实例的起价为每月36999美元,并且可以根据客户需求立即扩展。
DGX Cloud率先登陆Oracle的云基础设施,随后是微软的Azure平台上,以及Google Cloud。目前Nvidia还没有提及云行业领导者AWS是否也将托管DGX Cloud。
Constellation Research副总裁兼首席分析师Andy Thurai表示,随着企业希望构建更大、更好的生成式AI模型,单个GPU集群已经不足以满足他们的需求了,因此超级计算机就变得很有意义。他指出,Nvidia并不是唯一一家走超级计算机路线的公司,HPE(及其Cray)和Cerebras Systems等初创公司已经证明了这一点。
Thurai表示,尽管Nvidia在AI训练领域占据主导地位,但实际上可能面临来自这些竞争对手的激烈竞争。他说:“就HPE而言,GreenLake for Large Language Models产品可能更具吸引力,因为它更环保,碳足迹接近于零。相比之下,Nvidia的超级计算机集群是一个巨大的能源消耗体。”
Thurai指出,这可能会在某些高性能计算AI用例中产生影响,例如基因组分析、药物发现和蛋白质模型,这些都需要高强度的计算能力。
尽管如此,Nvidia仍然是迄今为止最重要的AI训练基础设施提供商,因此DGX Cloud看起来与其他任何事情一样,都是一项战略性的举措。Thurai解释说:“鉴于GPU的供应短缺和极高的需求,Nvidia并不想出售芯片并赚取数万亿美元,而是希望拥有这些芯片并将其作为服务出租以赚取更多的钱。”
然而,Thurai质疑Nvidia按月租用DGX Cloud的做法对于某些客户来说是否太过分了。相比之下,HPE和Cerebras都是计划通过即用即付的模式提供服务。他说:“月租可能会吸引一些非常大的语言模型构建者,但这是一个臃肿且非常昂贵的提议,被许多企业视为矫枉过正。”
无论如何,Nvidia相信,DGX Cloud的上市将为生成式AI带来巨大的福音,加速推进生成式AI的潜在用例。Nvidia指出,该平台的早期采用者已经取得了一些令人印象深刻的成就。
例如,有多家医疗公司一直在使用DGX Cloud训练蛋白质模型并加速药物发现和临床报告。与此同时,有些金融服务公司正在使用该平台优化投资组合、预测趋势、构建推荐引擎和智能聊天机器人。还有保险公司使用DGX Cloud构建可以自动化大部分索赔流程的模型。
Moor Insights & Strategy分析师Patrick Moorhead在Nvidia提供的评论中表示,快速采用生成式AI已经成为企业的一项关键业务需求,许多企业一直在热切等待DGX Cloud的推出。他补充说:“Nvidia DGX Cloud的上市提供了一个新的、几乎可以即时访问的AI超级计算资源池。”
好文章,需要你的鼓励
从浙江安吉的桌椅,到广东佛山的沙发床垫、河南洛阳的钢制家具,再到福建福州的竹藤制品,中国各大高度专业化的家具产业带,都在不约而同地探索各自的数字化出海路径。
哥伦比亚大学研究团队开发了MathBode动态诊断工具,通过让数学题参数按正弦波变化来测试AI的动态推理能力。研究发现传统静态测试掩盖了AI的重要缺陷:几乎所有模型都表现出低通滤波特征和相位滞后现象,即在处理快速变化时会出现失真和延迟。该方法覆盖五个数学家族的测试,为AI模型选择和部署提供了新的评估维度。
研究人员正探索AI能否预测昏迷患者的医疗意愿,帮助医生做出生死决策。华盛顿大学研究员Ahmad正推进首个AI代理人试点项目,通过分析患者医疗数据预测其偏好。虽然准确率可达三分之二,但专家担心AI无法捕捉患者价值观的复杂性和动态变化。医生强调AI只能作为辅助工具,不应替代人类代理人,因为生死决策依赖具体情境且充满伦理挑战。
这项研究首次发现AI推理模型存在"雪球效应"问题——推理过程中的小错误会逐步放大,导致AI要么给出危险回答,要么过度拒绝正常请求。研究团队提出AdvChain方法,通过训练AI学习"错误-纠正"过程来获得自我纠错能力。实验显示该方法显著提升了AI的安全性和实用性,用1000个样本达到了传统方法15000个样本的效果,为AI安全训练开辟了新方向。