Nvidia近日表示,Nvidia AI超级计算平台最先进的版本Nvidia DGX Cloud现在已经与Nvidia AI Enterprise软件套件一起在Oracle Cloud Marketplace中提供了。

在Oracle云基础设施上发布Nvidia DGX Cloud,将为客户提供访问Nvidia最强大GPU的一种方法,用于以训练生成式AI和其他工作负载。Nvidia表示,在今年3月Nvidia GTX大会上宣布推出的Nvidia DGX Cloud AI是一项云托管的AI超级计算服务,可以立即提供客户开始训练强大生成式AI和其他应用所需的一切。
该服务基于Nvidia广受欢迎的DGX平台,后者是一种专用硬件产品,企业可以购买并设置运行在自己的本地数据中心。企业借助DGX Cloud就不再需要等待购买昂贵且经常需求的平台,而是可以按月租用AI工作负载所需的基础设施。换句话说,Nvidia正在向更多企业提供Nvidia的AI超级计算机,包括那些无力自行部署和管理其系统的企业。
Nvidia解释说,DGX Cloud的每个实例都可以提供8个80 GB Tensor Core GPU,这意味着每个节点都有640 GB的GPU内存。该平台构建在高性能、低延迟的网络结构之上,以确保工作负载可以跨互连系统集群进行扩展。通过这种方式,多个DGX Cloud实例就可以充当一个巨大的GPU来处理最苛刻的工作负载。
DGX Cloud平台与Nvidia AI Enterprise软件搭配,让客户能够访问100多个AI框架和预训练模型,以便他们可以针对特有的、特定领域的任务构建、完善和操作定制的大型语言模型和其他基于自己专有数据训练的生成式AI模型。
Nvidia表示,从今天开始,客户可以通过Oracle Cloud Marketplace访问Nvidia DGX Cloud AI。客户将可以使用Nvidia Base Command Platform与硬件交互,平台让开发人员可以通过网络浏览器访问AI超级计算功能。通过提供客户AI基础设施的单一窗格视图,Base Command Platform简化了多节点集群的管理。
Nvidia表示,客户将能够快速构建他们的生成式AI应用,并将其轻松部署Oracle Cloud Infrastructure或他们自己的本地平台上,从而更容易采用混合云策略。
配合此次发布,Nvidia分享了一个客户成功案例,称纽约州北部的奥尔巴尼大学最近在Oracle基础设施上使用了Nvidia DGX Cloud AI,作为其AI Plus计划的基础。该计划将AI教学与学习整合到大学的研究和学术事业中,涉及网络安全、天气预报、健康数据分析、药物发现和下一代半导体设计等领域。奥尔巴尼大学方面表示,正在Oracle云上使用Nvidia的平台来构建自己的本地超级计算机。
奥尔巴尼大学负责研究和经济发展的副校长Thenkurussi Kesavadas表示:“我们正在加快实现将AI融入几乎所有学术和研究学科的使命之中。我们将推动医疗、安全和经济竞争力的进步,同时帮助学生在不断变化的就业市场中发挥作用。”
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。