Nvidia今天在线举行的GTC 2022大会上宣布,首批基于下一代图形处理单元Nvidia H100 Tensor Core GPU的产品和服务将于下个月推出。
Nvidia H100 Tensor Core是Nvidia目前为止最强大的GPU,现在已经全面投产,基于新的Hopper架构,包含有800多亿个晶体管,此外还具有Transformer Engine和扩展性更高的NVLink互连等新功能,使其能够支持更大型的人工智能模型、推荐系统和其他类型的工作负载。
Nvidia在今年4月首次发布该芯片的时候曾表示,这款芯片非常强大,理论上只需要20个这种芯片就可以承载全球所有互联网流量,这使得它成为最先进AI应用的理想选择,包括执行对数据的实时推理。
这款H100 GPU是第一个支持PCIe Gen5的GPU,此外还采用了HBM3,也就是说芯片可支持超过3 TB的内存带宽。不过,很多企业可能对Transformer Engine也很感兴趣。据说该技术能够将基于Transformer的自然语言处理模型加速到上一代A100 GPU的6倍之多。
此外,这款H100 GPU采用第二代安全多实例GPU技术,可以将芯片划分为7个更小的、完全隔离的实例,以同时处理多个工作负载。其他功能还包括支持机密计算,这意味着可以在处理数据时对数据进行加密,以及支持加速动态编程的新DPX指令。
这项技术常用于很多优化、数据处理和组学算法中。Nvidia承诺,这款H100 GPU的速度要比目前最先进的CPU快40倍。
Nvidia创始人、首席执行官黄仁勋在GTC大会上表示,他把Hopper视为“AI工厂的新引擎”,它将推动基于语言的人工智能、机器人技术、医疗和生命科学领域的重大进步。他表示:“Hopper的Transformer Engine将性能提升了一个数量级,让企业和研究人员能够接触到大规模的人工智能和高性能计算。”
一个有趣的细节是,所有由Nvidia H100驱动的新主流服务器都将以5年许可的方式售卖Nvidia AI Enterprise,这个软件套件主要用于优化AI模型的开发和部署,并提供AI框架和工具用于构建AI聊天机器人、推荐工程师、视觉AI等。
Nvidia 表示,这款H100 GPU将通过10月Nvidia LaunchPad服务在戴尔最新PowerEdge服务器上广泛提供给客户,这项服务为企业提供了免费的动手实验室以开始使用该硬件。或者,客户也可以订购新的Nvidia DGX H100系统,该系统配备8个H100 GPU,并在FP8精度上提供32 petaflops的性能。
每个DGX系统都由Nvidia Base Command和AI Enterprise软件堆栈提供支持,从单个节点到整个Nvidia DGX SuperPOD的部署,用于更高级的AI工作负载,例如大型语言模型等。
此外,这款H100 GPU将被部署在戴尔、Atos、思科、富士通、技嘉、HPE等厂商售卖的各种第三方服务器系统中,未来几周还有联想和超微的系统陆续推出。
一些全球领先的高等教育和研究机构也将使用这款Nvidia H100芯片为他们先进的超级计算机提供动力,其中包括巴塞罗那超级计算中心、洛斯阿拉莫斯国家实验室、瑞士国家超级计算中心、德克萨斯高级计算中心和筑波大学。
紧随其后的是公有云巨头,Nvidia表示,AWS、Google Cloud、微软Azure和Oracle Cloud Infrastructure服务将在明年初率先部署基于H100的实例。
微软Azure AI Infrastructure总经理Nidhi Chappell表示:“我们期待在微软Azure上的H100 GPU上启用下一代AI模型,随着Hopper架构取得进展以及我们对Azure AI超级计算的投入,我们将能够帮助加入全球人工智能的发展。”
Constellation Research分析师Holger Mueller表示,今天这则公告向我们展示了Nvidia希望通过Hopper架构成为所有企业的AI运营平台这一愿望。Mueller说:“Hopper不仅可以在所有领先的云平台上使用,还可以在本地平台上使用,这让企业可以选择在几乎任何地方部署AI驱动的下一代应用。考虑到Nvidia芯片具有的强大功能,这将成为一个非常引人注目的产品,因为在未来十年,企业工作负载的运行位置将存在着很大的不确定性。”
最后,Nvidia表示,很多世界领先的大型AI模型和深度学习框架目前正在针对H100 GPU进行优化,包括Nvidia自己的NeMo Megatron框架,以及微软DeepSpeed、谷歌JAX、PyTorch、TensorFlow和XLA。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。