Nvidia发布Grace CPU：首个基于Arm、针对AI的数据中心CPU

Nvidia正在瞄准更具有挑战性的人工智能工作负载，发布了自己首个基于Arm的数据中心CPU。

Nvidia在今天举行的GTC线上大会活动中发布了这款名为“Grace”的新CPU，据说是10000个工程年的成果，设计旨在满足当前最强大的AI应用对计算力的巨大需求，包括自然语言处理、推荐系统、AI超级计算机驱动的药物发现等。

Nvidia表示，Grace可以在配置了Nvidia知名GPU（例如Nvidia A100 GPU）的系统发挥最高性能。Nvidia高管表示，当与Nvidia GPU紧密结合时，基于Grace的系统性能达到目前运行英特尔x86 CPU的DGX的系统的10倍。

Nvidia称，Grace CPU以美国计算机编程先驱Grace Hopper的名字命名，旨在为新型超级计算机提供动力，早期用户瑞士国家计算中心（CSCS）将推出新型Alps超级计算机。

Alps系统目前是由HPE打造的，基于HPE的Cray EX超级计算机产品线，由Nvidia HGX超级计算平台提供支撑，该平台采用了A100 GPU、Nvidia High-Performance Computing软件开发套件以及此次推出的Grace CPU。一旦系统启动并运行起来，将可以在短短两天内训练出全球最大的自然语言处理模型GPT-3，比2.8Periflops的Selene超级计算机快近7倍，Selence是目前经过MLPerf认证的全球最快的AI超级计算机。

Nvidia加速计算高级总监Paresh Kharya在新闻发布会上表示，Grace是首款旨在满足当今全球功能最强大的AI模型呈现爆炸式增长的CPU。他举例说，GPT-3模型需要处理1000多亿个参数，而现有CPU架构根本无法满足这个需求。

Kharya说：“巨型模型正在推高着现有架构的极限。”问题在于，这些模型是不支持GPU内存的，只支持系统内存，而后者速度较慢。

Kharya解释说，Grace CPU是为升级计算架构以更好处理AI和HPC而生的。他说：“我们全新打造了一款CPU，以兑现这个承诺。这款CPU能够与GPU紧密结合，提供一个消除了瓶颈的平衡架构。”

瑞士国家计算中心将在那些能够受益于自然语言理解的众多科研领域中采用Alps超级计算机，例如分析成千上万篇科学论文，创造可以用于辅助药物发现的新分子。

瑞士国家计算中心主管Thomas Schulthess表示：“Nvidia新推出的Grace CPU使我们能够融合AI技术和经典的超级计算技术来解决计算科学中最棘手的问题。”

Nvidia表示，用于新系统的Grace CPU将通过Nvidia NVLink互连技术链接到Nvidia GPU上。Nvidia还补充说，Grace CPU每秒连接速度高达900Gb，总带宽比其他计算机服务器高30倍。

Nvidia表示，Grace CPU还得到了LPDDR5x内存子系统的支持，让该系统与DDR4内存相比带宽和能源效率分别提高1倍和10倍。当然，Grace CPU还将支持Nvidia HPC SDK、全套CUDA和CUDA-X GPU应用库。

Constellation Research分析师Holger Mueller表示，随着Grace的推出，Nvidia这家历史悠久的公司将开启发展的新篇章。他说，Nvidia将宣布第一个基于Arm技术的完整AI平台，以应对AI带来的最大挑战。

Mueller说：“这将让Nvidia能够快速有效地把数据移动到GPU和数据处理单元中，是Nvidia AI产品组合的自然延伸，对于其他基于云的AI和ML工作负载来说，将是他们在本地环境中的一大挑战。而对那些希望在哪运行工作负载有更多选择的公司来说，是个好消息。”

Moor Insights＆Strategy的分析师Patrick Moorhead表示，Grace CPU是2021年GTC大会迄今为止最重大的公告。

“Grace是紧密集成型CPU，可用于有1万亿多个参数的AI模型，而这对于通过PCIe链接的CPU和GPU经典组合来说是难以解决的。Grace专注于IO和内存带宽，与GPU共享主内存，因此你肯定不会将它与AMD或者英特尔的通用型数据中心CPU相混淆。”

Nvidia首席执行官黄仁勋在大会主题演讲中表示，如今AI工作负载中所使用的数据量是惊人的。Grace的推出意味着Nvidia现在除了GPU和数据处理单元外，还拥有第三种用于AI的基础技术，从而使其能够针对这些工作负载完全重新构建数据中心。他说：“Nvidia现在是一家三芯片公司。”

Nvidia表示，Grace CPU将于2023年全面上市。

全球首个云原生多租户AI超级计算机

与此同时，企业仍然可以通过Nvidia下一代云原生Nvidia DGX SuperPOD AI硬件的形式，使用功能非常强大的AI超级计算平台。

新推出的Nvidia DGX SuperPOD（如图所示）首次配备了Nvidia BlueField-2 DPU数据处理单元，后者可以卸载、加速和隔离数据，将用户安全地连接到Nvidia AI基础设施。Nvidia表示，BlueField-2 DPU与新的Nvidia Base Command服务相结合，让多个用户和团队可以安全地访问、共享和操作DGX SuperPOD基础设施。Base Command可用于为全球数据科学家和开发人员团队协调AI训练和操作。

Nvidia DGX A100是这个SuperPOD系统的基本组成部分，同时结合了8个Nvidia顶级A100数据中心GPU与2个CPU和1 TB内存。

Nvidia副总裁、DGX系统总经理Charlie Boyle表示：“AI是全球已知最强大的技术，而Nvidia DGX系统是利用AI最有效的工具。新推出的DGX SuperPOD结合了多个DGX系统，提供了一个交钥匙型的AI数据中心，可以在整个研究人员和开发者团队之间安全共享。”

Nvidia表示，将在第二季度通过Nvidia全球合作伙伴提供云原生的DGX SuperPODS和Base Command。

此外，Nvidia还公布了一款新的DPU，即BlueField-3芯片，性能是上一代产品的10倍，提供了实时网络可见性、网络安全威胁检测和响应功能。Nvidia称，BlueField-3可以作为同样在今天推出的、AI云原生网络安全平台Nvidia Morpheus的监视或遥测代理。

Jarvis交互式对话式AI框架

在软件方面，Nvidia也不甘落后。为了鼓励更多开发者采用Nvidia新的AI基础设施，Nvidia今天宣布推出Nvidia Jarvis框架。该框架为开发人员提供了很多预训练的深度学习模型和软件工具，可以用来创建交互式对话AI服务，以适应各行各业的需求。

Nvidia将通过Nvidia GPU云服务提供用于Jarvis框架的深度学习模型，这些模型经过了数十亿小时的电话、网络会议和广播流视频内容的驯良，可以用于Nvidia所谓的“高度准确”的自动语音识别和“超人类”语言理解。Nvidia称，这些模型还可以用于多语言实时翻译，以及开发针对对话聊天机器人的文本语音转换功能。

Jarvis模型速度超快。Nvidia表示，Jarvis通过GPU加速可以在不到100毫秒的时间内运行端到端语音管道，以比眨眼更快的速度收听、理解和做出响应。Nvidia表示，开发者人可以通过Nvidia Tao框架使用自己的数据来训练、调整和优化Jarvis模型，使用任何系统应对任何行业的任何任务。

Jarvis深度学习模型潜在应用场景包括新型数字护士服务，可帮助监控患者、为超负荷的医务人员减轻负担；或者电子商务在线助手，了解消费者需要什么，提供有用的建议；以及实时翻译，帮助实现更好的跨境工作协同。