每年的GTC大会,NVIDIA总会带来令人惊喜的产品。在今年的GTC 2022大会上,NVIDIA宣布推出采用NVIDIA Hopper架构的新一代加速计算平台。这一全新架构以美国计算机领域的先驱科学家Grace Hopper的名字命名,将取代两年前推出的NVIDIA Ampere架构。
NVIDIA同时发布其首款基于Hopper 架构的GPU——NVIDIA H100。该款GPU集成了800亿个晶体管。H100是全球范围内最大的性能出众的加速器,拥有革命性的Transformer引擎和高度可扩展的NVIDIA NVLink互连技术等突破性功能,可推动庞大的AI语言模型、深度推荐系统、基因组学和复杂数字孪生的发展。
在笔者看来,这次NVIDIA Hopper架构的亮点还是非常多的,比如在制程工艺、引入Transformer、第4代NVIDIA NVLink、新的DPX指令等,这些让NVIDIA H100在驱动新的工作负载方面更加得心应手。
新架构带来新突破
作为全新架构,H100 NVIDIA GPU带来了六项突破性创新:
新工艺带来产品新高度——如今,半导体产业在制程工艺方面不断精进创新。H100由800亿个晶体管构建而成,这些晶体管采用了专为NVIDIA加速计算需求设计的尖端的TSMC 4N工艺,因而能够显著提升AI、HPC、显存带宽、互连和通信的速度,并能够实现近5TB/s的外部互联带宽。
H100是首款支持PCIe 5.0的GPU,也是首款采用HBM3的GPU,可实现3TB/s的显存带宽。20个H100 GPU便可承托相当于全球互联网的流量,使其能够帮助客户推出先进的推荐系统以及实时运行数据推理的大型语言模型。
新引擎加速大模型计算——Transformer现在已成为自然语言处理的标准模型方案,也是深度学习模型领域最重要的模型之一。H100加速器的Transformer引擎旨在不影响精度的情况下,将这些网络的速度提升至上一代的六倍,可以更好地处理NLP和对话类AI应用。
MIG让云部署更便捷——第二代安全多实例GPU(MIG技术)支持将单个GPU分为七个更小且完全独立的实例,以处理不同类型的作业。与上一代产品相比,在云环境中Hopper架构通过为每个GPU实例提供安全的多租户配置,将MIG的部分能力扩展了7倍,这样可以方面CSP进行云端交付GPU。
数据加密让计算更安全——如今数据隐私安全至关重要,而H100是全球首款具有机密计算功能的加速器,可保护AI模型和正在处理的客户数据。客户还可以将机密计算应用于医疗健康和金融服务等隐私敏感型行业的联邦学习,也可以应用于共享云基础设施。
新互联技术让连接更顺畅——为加速大型AI模型,第4代NVIDIA NVLink结合全新的外接NVLink Switch,可将NVLink扩展为服务器间的互联网络,最多可以连接多达256个H100 GPU,相较于上一代采用NVIDIA HDR Quantum InfiniBand网络,带宽高出9倍,这样让数据处理通路更加顺畅。
新指令加速算法——硬件级的加速往往比软件加速更加有效。NVIDIA H100借助新的DPX指令可加速动态规划,适用于包括路径优化和基因组学在内的一系列算法,与CPU和上一代GPU相比,其速度提升分别可达40倍和7倍。Floyd-Warshall算法与Smith-Waterman算法也在其加速之列,前者可以在动态仓库环境中为自主机器人车队寻找最优线路,而后者可用于DNA和蛋白质分类与折叠的序列比对。
两种规格满足多样化部署需求
为了满足各种服务器设计需求,H100将提供SXM和PCIe两种规格。此外,NVIDIA还会推出融合加速器,耦合H100 GPU与NVIDIA ConnectX-7 400Gb/s InfiniBand和以太网智能网卡。
NVIDIA H100 SXM提供4 GPU和8 GPU配置的HGX H100服务器主板,可助力企业将应用扩展至一台服务器和多台服务器中的多个GPU。基于HGX H100的服务器可为AI训练和推理以及数据分析和HPC应用提供更高的应用性能。
H100 PCIe通过NVLink连接两块GPU,相较于PCIe 5.0,可提供7倍以上的带宽,为主流企业级服务器上运行的应用带来卓越的性能。PCIe规格便于集成到现有的数据中心基础设施中。
H100 CNX是一款全新的融合加速器。这款加速器将H100与ConnectX-7智能网卡相结合,可为I/O密集型应用(如企业级数据中心内的多节点AI训练和边缘5G信号处理)提供强劲性能。
我们知道NVIDIA致力于打造3U一体的战略,也就是CPU、GPU、DPU。在今年GTC上,NVIDIA正式推出了Grace CPU。而NVIDIA Hopper架构GPU可与NVIDIA Grace CPU通过NVLink-C2C互联,与PCIe 5.0相比,可将CPU和GPU之间的通信速度提高7倍以上。这一组合,即Grace Hopper超级芯片,可用于大规模HPC和AI应用。
NVIDIA H100可部署于各种数据中心,包括内部私有云、云、混合云和边缘数据中心。
Hopper已在行业内获得各大云服务提供商的广泛支持,包括阿里云、AWS、百度智能云、Google Cloud、Microsoft Azure、Oracle Cloud、腾讯云和火山引擎,这些云服务商均计划推出基于H100的实例。
全球领先的系统制造商,包括源讯、BOXX Technologies、思科、戴尔科技、富士通、技嘉、新华三、慧与(HPE)、浪潮、联想、宁畅和超微预计推出各种采用H100加速器的服务器。
这款产品预计于今年晚些时候全面发售,届时企业可从全球各大云服务提供商和计算机制造商处购买,或者直接从NVIDIA官方渠道购买。
结语
从产品更新看,NVIDIA Hopper架构的亮点非常多,紧跟当下技术发展趋势,特别是人工智能应用的多样化发展。NVIDIA H100依靠在工艺、加速引擎、机密计算、互联技术、指令集等方面的创新,为现代化基础设施提供了源源不断的动力。
好文章,需要你的鼓励
四川大学研究团队发现,当前先进的AI模型在面对信息不完整的数学问题时,缺乏主动询问澄清信息的能力,更倾向于基于假设给出答案。
中南大学等机构联合发布TextAtlas5M数据集,包含500万图像-文本对,专门解决AI长文本图像生成难题。该数据集平均文本长度148.82词,远超现有数据集,涵盖广告、学术、教育等真实场景。配套的TextAtlasEval基准测试显示,即使最先进的商业模型也面临显著挑战,为AI图像生成技术指明了新的发展方向。
从11岁就梦想造人形机器人的Bernt Bornich,用'huggable'形容他的Neo Gamma机器人——这个能举起150磅的66磅'运动员',正以家庭为试验场突破AI学习瓶颈:'工厂20小时就触及学习天花板,而家庭环境的多样性才是通往AGI的钥匙'。
剑桥大学研究团队创建了史上最难的AI视觉测试ZeroBench,包含100道精心设计的视觉推理题目。在这项测试中,包括GPT-4o、Claude、Gemini在内的20个全球最先进AI模型全部得了0分,暴露了当前AI在基础视觉理解上的严重缺陷。研究发现AI主要在计数、空间推理等基础任务上失败,而非逻辑推理能力不足。