Nvidia今天公布了第一批所谓的“ Nvidia认证系统”,主要针对那些希望大规模运行人工智能工作负载的企业组织。

Nvidia表示,已经与戴尔、HPE、技嘉、浪潮、超微等服务器制造商展开合作,为这些这些系统进行认证证明其符合最佳设计实践,并可以为最高级的机器学习和数据分析任务提供最佳性能。
这些新系统将采用Nvidia最高端的A100 GPU,并配合Mellanox高速网络适配器,为企业在企业数据中心内或者网络边缘运行AI工作负载提供更多不同选择。
Nvidia GPU云产品管理总监Adel El Hallak在新闻发布会上表示:“人工智能已经成为主流”,客户正在寻找有保障的功能、性能、可扩展性和安全性。
El Hallak说:“大规模部署AI很难,到目前为止都还是手动操作的。”他补充说,这些新认证的系统将有助于“将以前很复杂的东西变成交钥匙型方案”。
Nvidia解释说,每个经过认证的系统都已经在各种AI工作负载上进行了测试,从需要多个计算节点的工作负载,到只需要单个GPU一小部分资源的工作负载,其中每一个都经过了优化,可以运行Nvidia NGC目录中的AI应用(该目录针对GPU优化AI应用的中心)。
Nvidia解释说,这次认证涉及使用NGC目录中最受欢迎的AI框架对AI工作负载进行测试,包括深度学习训练和推理、机器学习算法、智能视频分析、网络和存储的卸载等等。
El Hallak说:“我们正在对人们实际使用的工作负载进行测试,而且测试规模是很大的。“
Constellation Research分析师Holger Mueller表示,Nvidia的软硬件都在AI方面逐步取得成功,“认证系统”正式一种典型的、行之有效的策略。
Mueller说:“企业高管喜欢得到平台认证的系统,因为这样可以确保可行性和可迁移性。更重要的是,这让企业有可能以一种面向未来的方式在本地运行AI,因为Nvidia设法在所有主流公有云中也都支持Nvidia的平台。这促使Nvidia成为一种AI的计算平台,从而为下一代应用实现了本地系统和公有云之间的工作负载可迁移性。”
Nvidia表示,截止发布时已经有14款系统通过认证可提供加速计算,包括Dell EMC PowerEdge R7525和R740机架服务器;技嘉R281-G30、R282-Z96、G242-Z11、G482-Z54、G492-Z51系统;HPE Apollo 6500 Gen10系统和HPE ProLiant DL380 Gen10服务器;浪潮NF5488A5服务器以及Supermicro A+Server AS -4124GS-TNR和AS -2124GQ-NART。
这些系统中的每一款都带有“Nvidia认证系统”的标识,证明它们是符合Nvidia最佳设计规范的,可以处理最苛刻的AI工作负载。在整个软件堆栈中都可获得企业支持,包括对开源代码的支持。
Nvidia表示,目前有来自11个系统制造商的约70个系统正在参与该计划,预计不久将宣布更多经过Nvidia认证的系统。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。