随着GPU加速应用在AI、数据分析、计算机辅助设计和计算机生成图像等领域中日渐重要,企业也面临着一个问题,即如何大规模支持这些工作负载,他们已无法承受每部署一个新的加速应用都需要为之设计和构建自定义硬件的时间成本。
为响应这一需求,NVIDIA认证系统计划在领先供应商的系统中将NVIDIA GPU与NVIDIA网络相结合。这些系统符合NVIDIA设计最佳实践,且在性能、可管理性、可扩展性和安全性等方面的配置均通过了一系列认证测试。
选择NVIDIA认证系统,企业可放心选择预配置且性能优化的服务器,赋能其各规模加速计算工作负载。
更多合作伙伴与GPU选择
今年1月首次发布以来,NVIDIA认证系统计划进展显著。华硕、源讯(Atos)、BOXX Technologies、富士通、新华三、联想、宁畅和QCT等合作伙伴的多款新系统均获得了认证。
此外,如今认证对象还包括NVIDIA A40(旨在实现最佳的图形功能)和NVIDIA T4 Tensor Core GPU(旨在助力打造经济型低功率系统)。其与NVIDIA A100一样,都旨在满足客户对最佳计算性能的需求。敬请访问NVIDIA认证系统页面,查看所有支持的GPU和网络组件。

部分最新NVIDIA认证系统厂商
迄今为止,已有超十家合作伙伴推出了近40种NVIDIA认证系统,而且每月都有更多新系统获得认证。请登陆认证服务器目录页面,查看已经获得认证的服务器和GPU,或询问您选择的厂商目前提供哪些已认证的服务器。我们将在未来的认证计划中加入更多新款NVIDIA GPU,包括最近发布的A30和A10。
涵盖更广泛的工作负载
采用NVIDIA认证系统的主要优点之一,是此配置适用于多类型的加速工作负载。认证测试套件通过运行一套能够代表多种现实应用的软件,来检查每种服务器设计的性能和功能。
计划发布以来,我们已对认证测试套件进行了扩展,新增了更多有代表性的工作负载,并通过更多方式来训练服务器。测试所包含的部分应用如下:
测试还包括端到端AI应用工作流程,其能够通过多种方式对系统进行训练,并根据实际应用来验证其配置是否足够完善。这些测试均使用NVIDIA NGC目录中的NVIDIA AI框架进行,包括:用于智能视频分析的NVIDIA DeepStream、用于医疗应用的NVIDIA Clara以及用于对话式AI的NVIDIA Jarvis。
此外,还有多项功能测试旨在确保服务器配置能够实现最佳的可管理性、安全性和可扩展性。这些测试包括:
总而言之,测试套件能够模拟企业客户在数据中心会遇到的应用和用例。系统必须通过所有测试的性能阈值才能获得认证。

NVIDIA认证系统测试套装涉及领域
全面的企业级软件支持
企业若有意愿将现代化加速计算从数据科学和开发者领域引入您领域的主流应用,NVIDIA提供具备全面的企业级软件包支持。
NVIDIA认证系统提供运行这些应用的服务器平台。系统中优化的设计、可预测的性能和扩展能力,使其成为助力企业级加速计算解决方案实施的最优选择。
上月,NVIDIA在GTC大会上发布了:
NVIDIA认证系统配置指南
NVIDIA认证系统经过验证,具有运行常规加速计算工作负载的最佳基础配置。客户可通过调整配置,来更好匹配他们在这些系统上运行的主要工作负载。例如,如果他们计划使用大型模型进行深度学习训练,则可在服务器上添加多个GPU。
客户可参考《NVIDIA认证系统配置指南》进行配置,该指南为推理和深度学习训练的服务器拓扑和系统配置提供了建议,未来还将增加对其他工作负载的建议。该指南详细介绍了组件尺寸和平衡、PCIe拓扑结构、存储等。对于想要调整NVIDIA认证系统基本配置的客户,这份全新的指南确保其始终拥有最优的设计。
好文章,需要你的鼓励
企业谈AI基础设施时,注意力往往首先集中在模型、GPU和算力集群上。但当大模型应用走向规模化推理,一个瓶颈开始浮现:算力采购完成,并不意味着Token能够被稳定、低成本、可控地交付出去。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。