以工业规模创造智能 NVIDIA GTC 2022发布众多产品组合 原创

每年的GTC大会都是NVIDIA秀肌肉的时刻,这次也不例外。除了全新的CPU产品以及NVIDIA Hopper架构,NVIDIA的产品布局更加全面,涵盖了基础设施的方方面面。在软硬件加持下,NVIDIA的“以工业规模创造智能,并将其融入真实和虚拟世界。”愿景正在加速到来。

“以工业规模创造智能,并将其融入真实和虚拟世界。”——NVIDIA创始人兼首席执行官黄仁勋

以工业规模创造智能 NVIDIA GTC 2022发布众多产品组合

又到一年的GTC大会,NVIDIA会给我们带来哪些惊喜呢?

开篇这句话就是黄仁勋在大会上的宏伟目标新表达,这句话虽然短,但是却蕴含丰富的内容。如今AI正在以前所未有的速度加速落地,如何实现类似大工业时代的标准化生产速度,NVIDIA显然有备而来。同时,数字世界与物理世界加速融合,也就是元宇宙成为人们新的憧憬,而NVIDIA也在此方面进行了诸多布局。

在GTC 2022上,NVIDIA宣布了一系列的算力和网络产品组合,以及软件更新,打造AI基础架构的新引擎。

通过这些全新的算力和网络产品,NVIDIA在基础设施层面确保了当前AI的需求。同时,NVIDIA持续布局软件领域,通过软硬协同实现AI加速。

下面我们不妨一一盘点一下今年GTC大会上的重磅产品更新:

第一个产品,NVIDIA Grace CPU超级芯片。

众所周知,NVIDIA提出了3U一体的战略,那就是CPU、GPU、DPU。

没错,在今年的GTC大会上,NVIDIA推出了自己的CPU产品。NVIDIA Grace CPU基于Arm Neoverse,由两个CPU芯片组成。

Grace CPU超级芯片是去年NVIDIA发布的首款由CPU-GPU集成的“Grace Hopper超级芯片”的模块,它将与基于NVIDIA Hopper架构的GPU一同应用于大型HPC和AI应用。这两款超级芯片采用相同的底层CPU架构及NVLink-C2C互连。

Grace CPU超级芯片可以运行所有的NVIDIA计算软件栈,包括NVIDIA RTX、NVIDIA HPC、NVIDIA AI和Omniverse。

Grace CPU超级芯片结合NVIDIA ConnectX-7网卡,能够灵活地配置到服务器中——或作为独立的纯CPU系统,或作为GPU加速服务器,搭载一块、两块、四块或八块基于Hopper的GPU,从而使客户通过只维护一套软件栈就能针对自身特定的工作负载做好性能优化。

Grace CPU超级芯片和Grace Hopper超级芯片预计将于2023年上半年开始供货。

第二个产品,基于Hopper架构的GPU——NVIDIA H100。

在GPU方面,NVIDIA宣布推出采用NVIDIA Hopper架构的新一代加速计算平台,取代两年前推出的NVIDIA Ampere架构。

NVIDIA同时发布其首款基于Hopper架构的GPU——NVIDIA H100。该款GPU集成了800亿个晶体管。H100是全球范围内最大的性能出众的加速器,拥有革命性的Transformer引擎和高度可扩展的NVIDIA NVLink互连技术等突破性功能,可推动庞大的AI语言模型、深度推荐系统、基因组学和复杂数字孪生的发展。

H100 NVIDIA GPU为加速大规模AI和HPC设定了新的标准,带来了六项突破性创新:世界最先进的芯片(TSMC 4N工艺,支持PCIe 5.0,采用HBM3)、新的Transformer引擎、第二代安全多实例GPU、机密计算、第4代NVIDIA NVLink、DPX指令。

H100将提供SXM和PCIe两种规格,可满足各种服务器设计需求。此外,NVIDIA还会推出融合加速器,耦合H100 GPU与NVIDIA ConnectX-7 400Gb/s InfiniBand和以太网智能网卡。

NVIDIA H100 SXM提供4GPU和8GPU配置的HGX H100服务器主板,可助力企业将应用扩展至一台服务器和多台服务器中的多个GPU。基于HGX H100的服务器可为AI训练和推理以及数据分析和HPC应用提供更高的应用性能。

H100 PCIe通过NVLink连接两块GPU,相较于PCIe 5.0,可提供7倍以上的带宽,为主流企业级服务器上运行的应用带来卓越的性能。PCIe规格便于集成到现有的数据中心基础设施中。

H100 CNX是一款全新的融合加速器。这款加速器将H100与ConnectX-7智能网卡相结合,可为I/O密集型应用(如企业级数据中心内的多节点AI训练和边缘5G信号处理)提供强劲性能。

NVIDIA Hopper架构GPU还可与NVIDIA Grace CPU通过NVLink-C2C互联,与PCIe 5.0相比,可将CPU和GPU之间的通信速度提高7倍以上。这一组合,即Grace Hopper超级芯片,可用于大规模HPC和AI应用。

第三个产品,第四代NVIDIA DGX系统。

NVIDIA宣布推出第四代NVIDIA DGX系统,每个DGX H100系统配备八块NVIDIA H100 GPU,并由NVIDIA NVLink连接,能够在新的FP8精度下达到32Petaflop的AI性能,比上一代系统性能高6倍。

DGX H100系统是新一代NVIDIA DGX POD和 NVIDIA DGX SuperPOD AI基础设施平台的构建模块。新的DGX SuperPOD架构采用了一个全新的NVIDIA NVLink Switch系统,通过这一系统最多可连接32个节点,总计256块H100 GPU。

除了八块H100 GPU以及总计6400亿个晶体管之外,每个DGX H100系统还包含两个NVIDIA BlueField-3 DPU,以用于卸载、加速和隔离高级网络、存储及安全服务。

八个NVIDIA ConnectX-7 Quantum-2 InfiniBand网卡能够提供400GB/s的吞吐量,可用于连接计算和存储,这一速度比上一代系统提升了一倍。第四代NVLink与NVSwitch相结合,能够在每个DGX H100系统中的各个GPU之间实现900GB/s的连接速度,是上一代系统的1.5倍。

新一代DGX SuperPOD提供1Exaflops的FP8 AI性能,比上一代产品性能高6倍,能够运行具有数万亿参数的庞大LLM工作负载,从而推动AI的前沿发展。

“Eos”超级计算机将于今年晚些时候开始运行,共配备576台DGX H100系统,共计4608块DGX H100 GPU,有望成为全球运行速度最快的AI系统。

NVIDIA Eos预计将提供18.4Exaflops的AI计算性能,比日本的Fugaku超级计算机快4倍,后者是目前运行速度最快的系统。在传统的科学计算方面,Eos预计将提供275Petaflop的性能。

借助DGX H100系统,DGX SuperPOD可成为具有可扩展性的卓越的企业级AI中心。DGX SuperPOD中的DGX H100节点和H100 GPU由NVLink Switch系统和NVIDIA Quantum-2 InfiniBand连接,带宽速度可达70TB/s,比上一代产品高11倍。

除了硬件,NVIDIA还提供了NVIDIA DGX Foundry托管的开发解决方案,DGX Foundry中包含NVIDIA Base Command、 NVIDIA AI Enterprise等软件。

为支持正在进行AI开发的DGX客户,NVIDIA DGX-Ready软件合作伙伴提供的MLOps解决方案将加入“NVIDIA AI加速”计划,NVIDIA还推出新的DGX-Ready托管服务计划和DGX-Ready 生命周期管理计划。

第四个产品,Spectrum平台。

作为全球首个400Gbps端到端网络平台,NVIDIA Spectrum-4的交换吞吐量比前几代产品高出4倍,达到51.2Tbps。该平台由NVIDIA Spectrum-4交换机系列、ConnectX-7智能网卡、NVIDIA BlueField-3 DPU和DOCA数据中心基础设施软件组成,能够大幅加速大规模云原生应用。

NVIDIA Spectrum-4 ASIC和SN5000交换机系列基于4纳米工艺,包含1000多亿个晶体管以及经过简化的收发器设计,具有领先的能效和总拥有成本。凭借支持128个400GbE端口的 51.2Tbps聚合ASIC带宽,以及自适应路由选择和增强拥塞控制机制,Spectrum-4优化了基于融合以太网的RDMA(RDMA over Converged Ethernet)网络架构,并显著提升了数据中心的应用速度。

Spectrum-4交换机实现了纳秒级计时精度,相比普通毫秒级数据中心提升了五到六个数量级。这款交换机还能加速、简化和保护网络架构。与上一代产品相比,其每个端口的带宽提高了2倍,交换机数量减少到1/4 ,功耗降低了40%。

Spectrum-4 ASIC具有领先的安全功能,例如支持 MACsec 和 VXLANsec,并通过硬件信任根将安全启动作为默认设置,帮助确保数据流和网络管理的安全性和完整性。凭借12.8Tbp加密带宽和这些安全功能(BlueField-3 DPU和ConnectX-7智能网卡同样具有此类功能),Spectrum-4将成为市场上优秀的、高性能的、安全的端到端以太网网络平台。

此外,Spectrum平台赋能NVIDIA Omniverse平台,实现用于3D设计协作和模拟的精确空间和时间模拟。Spectrum-3交换机的网络架构能够连接32台OVX服务器,形成OVX超级集群。

第五个产品,NVLink-C2C。

现在异构芯片越来越多,于是芯片间的互联互通变得至关重要。

NVIDIA NVLink-C2C是一种超快速的芯片到芯片、裸片到裸片的互连技术,将支持定制裸片与NVIDIA GPU、CPU、DPU、NIC和SOC之间实现一致的互连,助力数据中心打造新一代的系统级集成。

NVIDIA NVLink-C2C依托于NVIDIA世界一流的SERDES和LINK设计技术,可从PCB级集成和多芯片模组扩展到硅插入器和晶圆级连接。这可提供极高的带宽,同时优化能效和裸片面积效率。

借助先进的封装技术,NVIDIA NVLink-C2C互连链路的能效最多可比NVIDIA芯片上的PCIe Gen 5高出25倍,面积效率高出90倍,可实现每秒900GB乃至更高的一致互联带宽。

NVIDIA Grace超级芯片系列以及去年发布的Grace Hopper超级芯片均采用了NVIDIA NVLink-C2C技术来连接处理器芯片。NVLink-C2C现已为半定制芯片开放,支持其与NVIDIA技术的集成。

NVIDIA NVLink-C2C支持Arm AMBA一致性集线器接口(AMBA CHI)协议。NVIDIA和Arm正在密切合作,以强化AMBA CHI来支持与其他互连处理器完全一致且安全的加速器。

除NVLink-C2C之外,NVIDIA还将支持本月早些时候发布的UCIe(Universal Chiplet Interconnect Express,通用小芯片互连传输通道)标准。与NVIDIA芯片的定制芯片集成既可以使用UCIe标准,也可以使用NVLink-C2C,后者经过优化,延迟更低、带宽更高、能效更高。

第六个产品,软件。

要知道在今年GTC大会上,NVIDIA还宣布了众多软件层面的更新。

建立在CUDA基础上的NVIDIA AI、高性能计算和图形处理平台包含各种软件开发工具包和工具,它们是跨多个应用领域实现更高性能和加速算法的核心。凭借这些SDK,开发者、研究者和数据科学家能够轻松运用NVIDIA先进平台的力量,解决计算、算法和科学交汇领域的复杂难题。

NVIDIA发布60多项CUDA-X (NVIDIA的一个库、工具和技术集)更新,包括用于加速量子电路模拟的cuQuantum、用于6G物理层研究的全新GPU加速开源库Sionna、RAPIDS、Morpheus、DGL容器、Nsight Systems等。

其他正在更新的库包括:用于医学影像的 MONAI、用于联邦学习的NVIDIA FLARE、用于重塑通信的Maxine、用于语音AI的 Riva、用于推荐系统的Merlin、用于运营研究的cuOpt以及用于机器人技术的Isacc。

NVIDIA AI是由多项具有关键功能的SDK和工具所组成,可用于跨多个节点上对AI工作负载进行快速部署、管理和扩展,为复杂的训练和机器学习工作负载提供有力的支持。

NVIDIA AI可供开发者免费使用,包括用于语音AI的NVIDIA Riva和用于智能推荐系统的NVIDIA Merlin,这两款软件均已正式全面上线。而整个软件套件也进行了更新,包括NVIDIA Triton、NeMo、Maxine和TAO工具包等工具。

此外,NVIDIA AI Enterprise 2.0现已经过优化和认证,并支持所有主要的数据中心和云平台,包括裸金属服务器、虚拟化基础设施和纯CPU系统。该套件现在支持 Red Hat OpenShift和VMware vSphere with Tanzu。

作为一款端到端、云原生的AI和数据分析工具与框架套件,NVIDIA AI Enterprise 2.0软件套件能够加速各个行业的AI开发和部署。

NVIDIA AI Enterprise 2.0还引入了更多支持训练和推理的NVIDIA AI软件容器。对 NVIDIA TAO工具包的支持使企业开发者能够对NVIDIA预训练AI模型进行微调和优化,从而简化自定义生产就绪模型的创建,而无需具备AI专业知识或大量训练数据。该软件套件还包含最新发布的NVIDIA Triton推理服务器。

NVIDIA 也宣布了NVIDIA AI加速计划,以助力确保NVIDIA软件和解决方案合作伙伴所开发AI应用的性能和可靠性。该计划针对各种经过验证的AI加速应用增加了可见性,使企业客户能够放心地在NVIDIA AI平台上进行部署。Adobe、红帽(Red Hat)和VMware等100多家合作伙伴参与了计划启动仪式。

作为NVIDIA开发者计划的一部分,开发者均可使用NVIDIA的AI软件集。

企业IT团队和AI开发者可以在 NVIDIA LaunchPad实验室中体验NVIDIA AI软件,其是由Equinix Metal在全球九座Equinix IBX数据中心提供的免费托管计划。新增加的LaunchPad实验室包括Riva语音AI实验室,以及多个可以体验Red Hat OpenShift、VMware vSphere with Tanzu、TAO工具包和Triton推理服务器(带有FIL后端)的NVIDIA AI Enterprise实验室。

结语

每年的GTC大会都是NVIDIA秀肌肉的时刻,这次也不例外。除了全新的CPU产品以及NVIDIA Hopper架构,NVIDIA的产品布局更加全面,涵盖了基础设施的方方面面。在软硬件加持下,NVIDIA的“以工业规模创造智能,并将其融入真实和虚拟世界。”愿景正在加速到来。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2022

03/24

09:56

分享

点赞

邮件订阅
白皮书