Nvidia正在不断扩大Nvidia认证系统的数量,提供给那些在自己数据中心或者在Nvidia云上大规模运行AI工作负载的企业。
这一公告是Nvidia在本周Computex 2021在线大会期间公布的。此外,Nvidia还推出了Nvidia Base Command Platform,一项昂贵的云托管开发服务,为客户提供了一条使用Nvidia超级计算机资源的途径。
今年早些时候Nvidia推出了第一批认证系统,并与服务器硬件制造商合作确保他们的服务器系统负荷Nvidia的设计最佳实践,为AI工作负载提供最佳性能。这些系统将CPU与Nvidia GPU以及Mellanox网络适配卡相结合,为企业提供了多种不同的硬件选项,用于在他们的企业数据中心内或者云端运行AI。
这些经过认证的服务器系统可以运行Nvidia AI Enterprise人工智能和数据分析工具套件及其新的Omniverse Enterprise设计平台,还可以完美配合VMware vSphere虚拟化软件和Red Hat用于AI开发的OpenShift平台使用。
这次公布的新认证系统包括来自戴尔、HPE、联想、华硕、超微等主流服务器制造商,以及Advantech、Altos Computing、ASRock Rack、Gigabyte 和Quanta Cloud Technology等小型公司的x86服务器系统,有很多不同价位和性能水平的选择,其中性能最高的系统配备的是Nvidia A100 Tensor Core GPU,其他则配备了Nvidia A40、A30和A10 Tensor Core GPU。
此前Nvidia表示,戴尔、HPE、超微和Nettrix等厂商将提供一些基于Nvidia HGXTM加速计算平台的首批服务器,针对最先进的AI训练和云计算服务。现在这些系统已经上市,客户可选择配备4个或者8个支持Nvidia NVLink GPU连接和InfiniBand网络的A100GPU。
更高效的系统
今天公布的服务器中,有一些服务器率先集成了Nvidia旨在优化硬件性能的新型BlueField-2 DPU。这款去年10月发布的DPU,旨在处理很多数据中心基础设施管理任务,例如扫描网络流量中的恶意软件,编排原本由CPU处理的存储。
通过将这些任务卸载到DPU,CPU就可以专注于分配给CPU的计算任务,从而提高整体性能。Nvidia称,单个BlueField-2DPU(如下)就可以处理数据中心基础设施管理任务,否则就需要多达125个CPU核心来处理。

“主要运行软件定义网络(例如,状态负载平衡器或分布式防火墙)、软件定义存储或者传统企业应用的服务器,都将受益于DPU为网络、安全和存储加速、卸载和隔离基础设施工作负载的能力。运行VMware vSphere、Windows或者超融合基础设施解决方案的系统,也受益于DPU,无论是运行AI和机器学习应用、图形密集型工作负载还是传统业务应用,”Nvidia存储营销总监John Kim在一篇博文中这样写道。
Nvidia表示,首批采用NVIDIA BlueField-2 DPU的系统将于今年晚些时候上市。
首款基于Arm的认证系统正在开发中
此外,Gigabyte和Wiwynn公司还将推出首款基于Arm的Nvidia认证服务器,采用Arm Neoverse CPU和Nvidia Ampere GPU。Nvidia表示,某些型号还将配备BlueField-2DPU。这些系统准备就绪后将立即提交给Nvidia认证,预计明年上市。
Nvidia企业计算负责人Manuvir Das表示:“各个行业的企业都需要支持他们在传统数据中心基础设施上开展AI方面的创新。Nvidia认证系统开放、不断发展的生态系统为客户提供了前所未有的服务器选择。”
Nvidia Base Command Platform
此次在Computex上宣布推出的Base Command Platform(下图),专门面向那些需要不只是简单服务器所能提供的更多AI资源的团队,适用于“大规模、多用户和多团队的AI开发工作流程”,让数十名研究人员和数据科学家能够同时使用加速计算资源。
Base Command Platform是Nvidia和NetApp提供的一项联合服务,通过NetApp的数据管理服务为AI团队提供访问Nvidia DGX SuperPOD超级计算机的权限,从而为密集型工作负载提供强大的功能。该服务仅适用于专业AI开发人员,据说每月订阅起价为 90,000美元。
为此,客户可以通过统一的界面查看所有AI开发项目,轻松地分配计算资源并进行协作。此外,Nvidia将提供一系列可以使用的AI和数据科学工具,例如NGCTM目录、集成了MLOps的API、Jupyter笔记本等等。

Nvidia 表示,该服务将于今年晚些时候在Google Cloud市场中提供,或者客户可以在自己的数据中心安装一套SuperPOD系统。Nvidia表示,目前该服务主要提供给早期客户使用。
“世界一流的AI开发需要强大的计算基础设施,让这些资源易于访问和获取,将对于把AI带给所有公司及其客户来说是至关重要的,”Das说。
Constellation Research分析师Holger Mueller表示,Nvidia希望通过在众多硬件合作伙伴中认证采用Nvidia DPU来成功构建自己的生态系统,这其中以戴尔和VMware尤为突出。“所有这些对企业来说都是有价值的,因为这让他们在平台方面有更高的多样性和更快的实施时间。”
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。