Nvidia正在不断扩大Nvidia认证系统的数量,提供给那些在自己数据中心或者在Nvidia云上大规模运行AI工作负载的企业。
这一公告是Nvidia在本周Computex 2021在线大会期间公布的。此外,Nvidia还推出了Nvidia Base Command Platform,一项昂贵的云托管开发服务,为客户提供了一条使用Nvidia超级计算机资源的途径。
今年早些时候Nvidia推出了第一批认证系统,并与服务器硬件制造商合作确保他们的服务器系统负荷Nvidia的设计最佳实践,为AI工作负载提供最佳性能。这些系统将CPU与Nvidia GPU以及Mellanox网络适配卡相结合,为企业提供了多种不同的硬件选项,用于在他们的企业数据中心内或者云端运行AI。
这些经过认证的服务器系统可以运行Nvidia AI Enterprise人工智能和数据分析工具套件及其新的Omniverse Enterprise设计平台,还可以完美配合VMware vSphere虚拟化软件和Red Hat用于AI开发的OpenShift平台使用。
这次公布的新认证系统包括来自戴尔、HPE、联想、华硕、超微等主流服务器制造商,以及Advantech、Altos Computing、ASRock Rack、Gigabyte 和Quanta Cloud Technology等小型公司的x86服务器系统,有很多不同价位和性能水平的选择,其中性能最高的系统配备的是Nvidia A100 Tensor Core GPU,其他则配备了Nvidia A40、A30和A10 Tensor Core GPU。
此前Nvidia表示,戴尔、HPE、超微和Nettrix等厂商将提供一些基于Nvidia HGXTM加速计算平台的首批服务器,针对最先进的AI训练和云计算服务。现在这些系统已经上市,客户可选择配备4个或者8个支持Nvidia NVLink GPU连接和InfiniBand网络的A100GPU。
更高效的系统
今天公布的服务器中,有一些服务器率先集成了Nvidia旨在优化硬件性能的新型BlueField-2 DPU。这款去年10月发布的DPU,旨在处理很多数据中心基础设施管理任务,例如扫描网络流量中的恶意软件,编排原本由CPU处理的存储。
通过将这些任务卸载到DPU,CPU就可以专注于分配给CPU的计算任务,从而提高整体性能。Nvidia称,单个BlueField-2DPU(如下)就可以处理数据中心基础设施管理任务,否则就需要多达125个CPU核心来处理。
“主要运行软件定义网络(例如,状态负载平衡器或分布式防火墙)、软件定义存储或者传统企业应用的服务器,都将受益于DPU为网络、安全和存储加速、卸载和隔离基础设施工作负载的能力。运行VMware vSphere、Windows或者超融合基础设施解决方案的系统,也受益于DPU,无论是运行AI和机器学习应用、图形密集型工作负载还是传统业务应用,”Nvidia存储营销总监John Kim在一篇博文中这样写道。
Nvidia表示,首批采用NVIDIA BlueField-2 DPU的系统将于今年晚些时候上市。
首款基于Arm的认证系统正在开发中
此外,Gigabyte和Wiwynn公司还将推出首款基于Arm的Nvidia认证服务器,采用Arm Neoverse CPU和Nvidia Ampere GPU。Nvidia表示,某些型号还将配备BlueField-2DPU。这些系统准备就绪后将立即提交给Nvidia认证,预计明年上市。
Nvidia企业计算负责人Manuvir Das表示:“各个行业的企业都需要支持他们在传统数据中心基础设施上开展AI方面的创新。Nvidia认证系统开放、不断发展的生态系统为客户提供了前所未有的服务器选择。”
Nvidia Base Command Platform
此次在Computex上宣布推出的Base Command Platform(下图),专门面向那些需要不只是简单服务器所能提供的更多AI资源的团队,适用于“大规模、多用户和多团队的AI开发工作流程”,让数十名研究人员和数据科学家能够同时使用加速计算资源。
Base Command Platform是Nvidia和NetApp提供的一项联合服务,通过NetApp的数据管理服务为AI团队提供访问Nvidia DGX SuperPOD超级计算机的权限,从而为密集型工作负载提供强大的功能。该服务仅适用于专业AI开发人员,据说每月订阅起价为 90,000美元。
为此,客户可以通过统一的界面查看所有AI开发项目,轻松地分配计算资源并进行协作。此外,Nvidia将提供一系列可以使用的AI和数据科学工具,例如NGCTM目录、集成了MLOps的API、Jupyter笔记本等等。
Nvidia 表示,该服务将于今年晚些时候在Google Cloud市场中提供,或者客户可以在自己的数据中心安装一套SuperPOD系统。Nvidia表示,目前该服务主要提供给早期客户使用。
“世界一流的AI开发需要强大的计算基础设施,让这些资源易于访问和获取,将对于把AI带给所有公司及其客户来说是至关重要的,”Das说。
Constellation Research分析师Holger Mueller表示,Nvidia希望通过在众多硬件合作伙伴中认证采用Nvidia DPU来成功构建自己的生态系统,这其中以戴尔和VMware尤为突出。“所有这些对企业来说都是有价值的,因为这让他们在平台方面有更高的多样性和更快的实施时间。”
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。