Nvidia今天宣布广泛推出下一代DGX超级计算平台Nvidia DGX Cloud,使企业能够访问Oracle Cloud Infrastructure及其云服务上的数千个GPU。
>
Nvidia表示,今年3月在Nvidia GTX大会上公布的DGX Cloud是一项云托管的AI超级计算服务,让企业客户可以获得他们开始训练那些面向生成式AI和其他应用的最先进模型所需的一切。
该服务基于Nvidia广受欢迎的DGX平台,DGX是一种专用硬件产品,企业可以购买并设置在自己的本地数据中心运行。借助 DGX Cloud,企业不再需要等着直接购买昂贵且频繁需要使用的平台,而是可以按月租用AI工作负载所需的基础设施。换句话说,Nvidia正在向更多企业提供它的AI超级计算机,包括那些无力自行部署和管理其系统的企业。
Nvidia解释说,DGX Cloud的每个实例都支持8个80 GB Tensor Core GPU,意味着每个节点有640 GB的GPU内存。该平台构建在高性能、低延迟的网络结构之上,确保工作负载可以跨互连系统集群进行扩展,通过这种方式,多个DGX Cloud实例就可以充当一个巨大的GPU来处理最苛刻的工作负载。
DGX Cloud平台与Nvidia AI Enterprise软件配合使用,让客户可以访问100多个AI框架和预训练模型,这样他们就可以构建、完善和操作定制的大型语言,并且用他们自己专有的数据训练生成式AI模型,用于独特的、特定领域的任务。
Nvidia还提供了对Base Command软件的访问,用于管理和监控DGX Cloud上的训练工作负载,确保DGX Cloud可以与本地DGX平台协同工作,从而让企业在需要时可以把这些资源组合起来。
Nvidia此前曾宣布,单个DGX Cloud实例的起价为每月36999美元,并且可以根据客户需求立即扩展。
DGX Cloud率先登陆Oracle的云基础设施,随后是微软的Azure平台上,以及Google Cloud。目前Nvidia还没有提及云行业领导者AWS是否也将托管DGX Cloud。
Constellation Research副总裁兼首席分析师Andy Thurai表示,随着企业希望构建更大、更好的生成式AI模型,单个GPU集群已经不足以满足他们的需求了,因此超级计算机就变得很有意义。他指出,Nvidia并不是唯一一家走超级计算机路线的公司,HPE(及其Cray)和Cerebras Systems等初创公司已经证明了这一点。
Thurai表示,尽管Nvidia在AI训练领域占据主导地位,但实际上可能面临来自这些竞争对手的激烈竞争。他说:“就HPE而言,GreenLake for Large Language Models产品可能更具吸引力,因为它更环保,碳足迹接近于零。相比之下,Nvidia的超级计算机集群是一个巨大的能源消耗体。”
Thurai指出,这可能会在某些高性能计算AI用例中产生影响,例如基因组分析、药物发现和蛋白质模型,这些都需要高强度的计算能力。
尽管如此,Nvidia仍然是迄今为止最重要的AI训练基础设施提供商,因此DGX Cloud看起来与其他任何事情一样,都是一项战略性的举措。Thurai解释说:“鉴于GPU的供应短缺和极高的需求,Nvidia并不想出售芯片并赚取数万亿美元,而是希望拥有这些芯片并将其作为服务出租以赚取更多的钱。”
然而,Thurai质疑Nvidia按月租用DGX Cloud的做法对于某些客户来说是否太过分了。相比之下,HPE和Cerebras都是计划通过即用即付的模式提供服务。他说:“月租可能会吸引一些非常大的语言模型构建者,但这是一个臃肿且非常昂贵的提议,被许多企业视为矫枉过正。”
无论如何,Nvidia相信,DGX Cloud的上市将为生成式AI带来巨大的福音,加速推进生成式AI的潜在用例。Nvidia指出,该平台的早期采用者已经取得了一些令人印象深刻的成就。
例如,有多家医疗公司一直在使用DGX Cloud训练蛋白质模型并加速药物发现和临床报告。与此同时,有些金融服务公司正在使用该平台优化投资组合、预测趋势、构建推荐引擎和智能聊天机器人。还有保险公司使用DGX Cloud构建可以自动化大部分索赔流程的模型。
Moor Insights & Strategy分析师Patrick Moorhead在Nvidia提供的评论中表示,快速采用生成式AI已经成为企业的一项关键业务需求,许多企业一直在热切等待DGX Cloud的推出。他补充说:“Nvidia DGX Cloud的上市提供了一个新的、几乎可以即时访问的AI超级计算资源池。”
好文章,需要你的鼓励
网络和基础设施管理技术提供商NetBox Labs完成3500万美元B轮融资。该公司是开源网络基础设施管理平台NetBox的商业化运营方,服务数万家企业用户,包括数十家财富500强公司。NetBox已成为现代技术基础设施构建、管理和自动化的标准平台,可加速创新、简化运营并支持AI应用场景。
这项研究开发了VIDEO-RTS系统,仅用传统方法3.6%的训练数据就让AI学会了真正的视频推理能力。系统采用"纯强化学习"跳过死记硬背阶段,结合"稀疏到密集"的自适应推理策略,在五个权威测试中平均准确率提升2.4%。这一突破性进展可能改变AI视频理解的发展方向。
ITPro Today针对IT专业人士进行的边缘计算策略调查显示,55%的受访者对边缘计算概念仅"有所了解",21%的组织IT预算中边缘计算投资不足5%,而33%的组织至少投入10%。性能提升和安全性是采用边缘计算的主要驱动因素,分析和数据缓存是主要应用场景。Microsoft Azure IoT Edge是最广泛使用的边缘平台,混合云-边缘模型成为主流架构。成本仍是边缘计算采用的最大障碍。
约翰斯·霍普金斯大学研究团队开发出能够自主完成胆囊切除术的手术机器人系统SRT-H。该系统采用分层决策架构,具备自我纠错能力,在8次完整手术测试中实现100%成功率。系统通过观看16000个手术轨迹学习,能够像人类医生一样观察、判断和纠错,代表了手术机器人向真正自主化迈出的重要一步。