Nvidia正在不断扩大Nvidia认证系统的数量,提供给那些在自己数据中心或者在Nvidia云上大规模运行AI工作负载的企业。
这一公告是Nvidia在本周Computex 2021在线大会期间公布的。此外,Nvidia还推出了Nvidia Base Command Platform,一项昂贵的云托管开发服务,为客户提供了一条使用Nvidia超级计算机资源的途径。
今年早些时候Nvidia推出了第一批认证系统,并与服务器硬件制造商合作确保他们的服务器系统负荷Nvidia的设计最佳实践,为AI工作负载提供最佳性能。这些系统将CPU与Nvidia GPU以及Mellanox网络适配卡相结合,为企业提供了多种不同的硬件选项,用于在他们的企业数据中心内或者云端运行AI。
这些经过认证的服务器系统可以运行Nvidia AI Enterprise人工智能和数据分析工具套件及其新的Omniverse Enterprise设计平台,还可以完美配合VMware vSphere虚拟化软件和Red Hat用于AI开发的OpenShift平台使用。
这次公布的新认证系统包括来自戴尔、HPE、联想、华硕、超微等主流服务器制造商,以及Advantech、Altos Computing、ASRock Rack、Gigabyte 和Quanta Cloud Technology等小型公司的x86服务器系统,有很多不同价位和性能水平的选择,其中性能最高的系统配备的是Nvidia A100 Tensor Core GPU,其他则配备了Nvidia A40、A30和A10 Tensor Core GPU。
此前Nvidia表示,戴尔、HPE、超微和Nettrix等厂商将提供一些基于Nvidia HGXTM加速计算平台的首批服务器,针对最先进的AI训练和云计算服务。现在这些系统已经上市,客户可选择配备4个或者8个支持Nvidia NVLink GPU连接和InfiniBand网络的A100GPU。
更高效的系统
今天公布的服务器中,有一些服务器率先集成了Nvidia旨在优化硬件性能的新型BlueField-2 DPU。这款去年10月发布的DPU,旨在处理很多数据中心基础设施管理任务,例如扫描网络流量中的恶意软件,编排原本由CPU处理的存储。
通过将这些任务卸载到DPU,CPU就可以专注于分配给CPU的计算任务,从而提高整体性能。Nvidia称,单个BlueField-2DPU(如下)就可以处理数据中心基础设施管理任务,否则就需要多达125个CPU核心来处理。
“主要运行软件定义网络(例如,状态负载平衡器或分布式防火墙)、软件定义存储或者传统企业应用的服务器,都将受益于DPU为网络、安全和存储加速、卸载和隔离基础设施工作负载的能力。运行VMware vSphere、Windows或者超融合基础设施解决方案的系统,也受益于DPU,无论是运行AI和机器学习应用、图形密集型工作负载还是传统业务应用,”Nvidia存储营销总监John Kim在一篇博文中这样写道。
Nvidia表示,首批采用NVIDIA BlueField-2 DPU的系统将于今年晚些时候上市。
首款基于Arm的认证系统正在开发中
此外,Gigabyte和Wiwynn公司还将推出首款基于Arm的Nvidia认证服务器,采用Arm Neoverse CPU和Nvidia Ampere GPU。Nvidia表示,某些型号还将配备BlueField-2DPU。这些系统准备就绪后将立即提交给Nvidia认证,预计明年上市。
Nvidia企业计算负责人Manuvir Das表示:“各个行业的企业都需要支持他们在传统数据中心基础设施上开展AI方面的创新。Nvidia认证系统开放、不断发展的生态系统为客户提供了前所未有的服务器选择。”
Nvidia Base Command Platform
此次在Computex上宣布推出的Base Command Platform(下图),专门面向那些需要不只是简单服务器所能提供的更多AI资源的团队,适用于“大规模、多用户和多团队的AI开发工作流程”,让数十名研究人员和数据科学家能够同时使用加速计算资源。
Base Command Platform是Nvidia和NetApp提供的一项联合服务,通过NetApp的数据管理服务为AI团队提供访问Nvidia DGX SuperPOD超级计算机的权限,从而为密集型工作负载提供强大的功能。该服务仅适用于专业AI开发人员,据说每月订阅起价为 90,000美元。
为此,客户可以通过统一的界面查看所有AI开发项目,轻松地分配计算资源并进行协作。此外,Nvidia将提供一系列可以使用的AI和数据科学工具,例如NGCTM目录、集成了MLOps的API、Jupyter笔记本等等。
Nvidia 表示,该服务将于今年晚些时候在Google Cloud市场中提供,或者客户可以在自己的数据中心安装一套SuperPOD系统。Nvidia表示,目前该服务主要提供给早期客户使用。
“世界一流的AI开发需要强大的计算基础设施,让这些资源易于访问和获取,将对于把AI带给所有公司及其客户来说是至关重要的,”Das说。
Constellation Research分析师Holger Mueller表示,Nvidia希望通过在众多硬件合作伙伴中认证采用Nvidia DPU来成功构建自己的生态系统,这其中以戴尔和VMware尤为突出。“所有这些对企业来说都是有价值的,因为这让他们在平台方面有更高的多样性和更快的实施时间。”
好文章,需要你的鼓励
北京大学研究团队开发出基于RRAM芯片的高精度模拟矩阵计算系统,通过将低精度模拟运算与迭代优化结合,突破了模拟计算的精度瓶颈。该系统在大规模MIMO通信测试中仅需2-3次迭代就达到数字处理器性能,吞吐量和能效分别提升10倍和3-5倍,为后摩尔时代计算架构提供了新方向。
普拉大学研究团队开发的BPMN助手系统利用大语言模型技术,通过创新的JSON中间表示方法,实现了自然语言到标准BPMN流程图的自动转换。该系统不仅在生成速度上比传统XML方法快一倍,在流程编辑成功率上也有显著提升,为降低业务流程建模的技术门槛提供了有效解决方案。
谷歌宣布已将约3万个生产软件包移植到Arm架构,计划全面转换以便在自研Axion芯片和x86处理器上运行工作负载。YouTube、Gmail和BigQuery等服务已在x86和Axion Arm CPU上运行。谷歌开发了名为CogniPort的AI工具协助迁移,成功率约30%。公司声称Axion服务器相比x86实例具有65%的性价比优势和60%的能效提升。
北京大学联合团队发布开源统一视频模型UniVid,首次实现AI同时理解和生成视频。该模型采用创新的温度模态对齐技术和金字塔反思机制,在权威测试中超越现有最佳系统,视频生成质量提升2.2%,问答准确率分别提升1.0%和3.3%。这项突破为视频AI应用开辟新前景。