Nvidia今天公布了第一批所谓的“ Nvidia认证系统”,主要针对那些希望大规模运行人工智能工作负载的企业组织。

Nvidia表示,已经与戴尔、HPE、技嘉、浪潮、超微等服务器制造商展开合作,为这些这些系统进行认证证明其符合最佳设计实践,并可以为最高级的机器学习和数据分析任务提供最佳性能。
这些新系统将采用Nvidia最高端的A100 GPU,并配合Mellanox高速网络适配器,为企业在企业数据中心内或者网络边缘运行AI工作负载提供更多不同选择。
Nvidia GPU云产品管理总监Adel El Hallak在新闻发布会上表示:“人工智能已经成为主流”,客户正在寻找有保障的功能、性能、可扩展性和安全性。
El Hallak说:“大规模部署AI很难,到目前为止都还是手动操作的。”他补充说,这些新认证的系统将有助于“将以前很复杂的东西变成交钥匙型方案”。
Nvidia解释说,每个经过认证的系统都已经在各种AI工作负载上进行了测试,从需要多个计算节点的工作负载,到只需要单个GPU一小部分资源的工作负载,其中每一个都经过了优化,可以运行Nvidia NGC目录中的AI应用(该目录针对GPU优化AI应用的中心)。
Nvidia解释说,这次认证涉及使用NGC目录中最受欢迎的AI框架对AI工作负载进行测试,包括深度学习训练和推理、机器学习算法、智能视频分析、网络和存储的卸载等等。
El Hallak说:“我们正在对人们实际使用的工作负载进行测试,而且测试规模是很大的。“
Constellation Research分析师Holger Mueller表示,Nvidia的软硬件都在AI方面逐步取得成功,“认证系统”正式一种典型的、行之有效的策略。
Mueller说:“企业高管喜欢得到平台认证的系统,因为这样可以确保可行性和可迁移性。更重要的是,这让企业有可能以一种面向未来的方式在本地运行AI,因为Nvidia设法在所有主流公有云中也都支持Nvidia的平台。这促使Nvidia成为一种AI的计算平台,从而为下一代应用实现了本地系统和公有云之间的工作负载可迁移性。”
Nvidia表示,截止发布时已经有14款系统通过认证可提供加速计算,包括Dell EMC PowerEdge R7525和R740机架服务器;技嘉R281-G30、R282-Z96、G242-Z11、G482-Z54、G492-Z51系统;HPE Apollo 6500 Gen10系统和HPE ProLiant DL380 Gen10服务器;浪潮NF5488A5服务器以及Supermicro A+Server AS -4124GS-TNR和AS -2124GQ-NART。
这些系统中的每一款都带有“Nvidia认证系统”的标识,证明它们是符合Nvidia最佳设计规范的,可以处理最苛刻的AI工作负载。在整个软件堆栈中都可获得企业支持,包括对开源代码的支持。
Nvidia表示,目前有来自11个系统制造商的约70个系统正在参与该计划,预计不久将宣布更多经过Nvidia认证的系统。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。