Nvidia今天公布了第一批所谓的“ Nvidia认证系统”,主要针对那些希望大规模运行人工智能工作负载的企业组织。
Nvidia表示,已经与戴尔、HPE、技嘉、浪潮、超微等服务器制造商展开合作,为这些这些系统进行认证证明其符合最佳设计实践,并可以为最高级的机器学习和数据分析任务提供最佳性能。
这些新系统将采用Nvidia最高端的A100 GPU,并配合Mellanox高速网络适配器,为企业在企业数据中心内或者网络边缘运行AI工作负载提供更多不同选择。
Nvidia GPU云产品管理总监Adel El Hallak在新闻发布会上表示:“人工智能已经成为主流”,客户正在寻找有保障的功能、性能、可扩展性和安全性。
El Hallak说:“大规模部署AI很难,到目前为止都还是手动操作的。”他补充说,这些新认证的系统将有助于“将以前很复杂的东西变成交钥匙型方案”。
Nvidia解释说,每个经过认证的系统都已经在各种AI工作负载上进行了测试,从需要多个计算节点的工作负载,到只需要单个GPU一小部分资源的工作负载,其中每一个都经过了优化,可以运行Nvidia NGC目录中的AI应用(该目录针对GPU优化AI应用的中心)。
Nvidia解释说,这次认证涉及使用NGC目录中最受欢迎的AI框架对AI工作负载进行测试,包括深度学习训练和推理、机器学习算法、智能视频分析、网络和存储的卸载等等。
El Hallak说:“我们正在对人们实际使用的工作负载进行测试,而且测试规模是很大的。“
Constellation Research分析师Holger Mueller表示,Nvidia的软硬件都在AI方面逐步取得成功,“认证系统”正式一种典型的、行之有效的策略。
Mueller说:“企业高管喜欢得到平台认证的系统,因为这样可以确保可行性和可迁移性。更重要的是,这让企业有可能以一种面向未来的方式在本地运行AI,因为Nvidia设法在所有主流公有云中也都支持Nvidia的平台。这促使Nvidia成为一种AI的计算平台,从而为下一代应用实现了本地系统和公有云之间的工作负载可迁移性。”
Nvidia表示,截止发布时已经有14款系统通过认证可提供加速计算,包括Dell EMC PowerEdge R7525和R740机架服务器;技嘉R281-G30、R282-Z96、G242-Z11、G482-Z54、G492-Z51系统;HPE Apollo 6500 Gen10系统和HPE ProLiant DL380 Gen10服务器;浪潮NF5488A5服务器以及Supermicro A+Server AS -4124GS-TNR和AS -2124GQ-NART。
这些系统中的每一款都带有“Nvidia认证系统”的标识,证明它们是符合Nvidia最佳设计规范的,可以处理最苛刻的AI工作负载。在整个软件堆栈中都可获得企业支持,包括对开源代码的支持。
Nvidia表示,目前有来自11个系统制造商的约70个系统正在参与该计划,预计不久将宣布更多经过Nvidia认证的系统。
好文章,需要你的鼓励
Birk Jernstrom在Shopify收购其上一家初创公司后,创立了货币化平台Polar,专注帮助开发者构建单人独角兽企业。该平台为开发者提供支付基础设施服务,处理全球计费和税务问题,让企业从第一天起就能销售在线产品和SaaS订阅服务。Polar获得了Accel领投的1000万美元种子轮融资,自2024年9月推出以来已吸引1.8万名客户。
Anthropic和Open Philanthropy研究人员发现,之前声称AI推理模型存在"准确率崩溃"的研究实际上混淆了推理能力和物理限制。通过重新分析发现,AI模型在遇到输出长度限制时会主动停止,而非推理失败;部分测试题目本身无解却被当作失败案例;改用程序生成方式后,模型在复杂问题上表现出色,揭示了AI评估方法的重要缺陷。
OpenAI首席执行官奥特曼证实,Meta为挖角OpenAI和谷歌DeepMind的顶尖AI研究人员,开出了超过1亿美元的薪酬包。然而,这些挖角努力基本失败。奥特曼表示,员工们认为OpenAI在实现AGI方面机会更大,公司文化更注重创新使命而非高薪。Meta正在组建超级智能团队,但面临OpenAI、Anthropic等竞争对手的激烈竞争。
华为联合多所高校发布TeleMath数据集,这是首个专门评估大型语言模型在通信数学问题求解能力的基准测试。研究团队设计创新的合成数据生成框架,从50个专家问题扩展至500个测试样本,涵盖信号处理、网络优化等七大领域。评估结果显示,专门的推理模型明显优于通用模型,为通信AI应用指明方向。