Nvidia今天在线举行的GTC 2022大会上宣布,首批基于下一代图形处理单元Nvidia H100 Tensor Core GPU的产品和服务将于下个月推出。

Nvidia H100 Tensor Core是Nvidia目前为止最强大的GPU,现在已经全面投产,基于新的Hopper架构,包含有800多亿个晶体管,此外还具有Transformer Engine和扩展性更高的NVLink互连等新功能,使其能够支持更大型的人工智能模型、推荐系统和其他类型的工作负载。
Nvidia在今年4月首次发布该芯片的时候曾表示,这款芯片非常强大,理论上只需要20个这种芯片就可以承载全球所有互联网流量,这使得它成为最先进AI应用的理想选择,包括执行对数据的实时推理。
这款H100 GPU是第一个支持PCIe Gen5的GPU,此外还采用了HBM3,也就是说芯片可支持超过3 TB的内存带宽。不过,很多企业可能对Transformer Engine也很感兴趣。据说该技术能够将基于Transformer的自然语言处理模型加速到上一代A100 GPU的6倍之多。
此外,这款H100 GPU采用第二代安全多实例GPU技术,可以将芯片划分为7个更小的、完全隔离的实例,以同时处理多个工作负载。其他功能还包括支持机密计算,这意味着可以在处理数据时对数据进行加密,以及支持加速动态编程的新DPX指令。
这项技术常用于很多优化、数据处理和组学算法中。Nvidia承诺,这款H100 GPU的速度要比目前最先进的CPU快40倍。
Nvidia创始人、首席执行官黄仁勋在GTC大会上表示,他把Hopper视为“AI工厂的新引擎”,它将推动基于语言的人工智能、机器人技术、医疗和生命科学领域的重大进步。他表示:“Hopper的Transformer Engine将性能提升了一个数量级,让企业和研究人员能够接触到大规模的人工智能和高性能计算。”
一个有趣的细节是,所有由Nvidia H100驱动的新主流服务器都将以5年许可的方式售卖Nvidia AI Enterprise,这个软件套件主要用于优化AI模型的开发和部署,并提供AI框架和工具用于构建AI聊天机器人、推荐工程师、视觉AI等。
Nvidia 表示,这款H100 GPU将通过10月Nvidia LaunchPad服务在戴尔最新PowerEdge服务器上广泛提供给客户,这项服务为企业提供了免费的动手实验室以开始使用该硬件。或者,客户也可以订购新的Nvidia DGX H100系统,该系统配备8个H100 GPU,并在FP8精度上提供32 petaflops的性能。
每个DGX系统都由Nvidia Base Command和AI Enterprise软件堆栈提供支持,从单个节点到整个Nvidia DGX SuperPOD的部署,用于更高级的AI工作负载,例如大型语言模型等。
此外,这款H100 GPU将被部署在戴尔、Atos、思科、富士通、技嘉、HPE等厂商售卖的各种第三方服务器系统中,未来几周还有联想和超微的系统陆续推出。
一些全球领先的高等教育和研究机构也将使用这款Nvidia H100芯片为他们先进的超级计算机提供动力,其中包括巴塞罗那超级计算中心、洛斯阿拉莫斯国家实验室、瑞士国家超级计算中心、德克萨斯高级计算中心和筑波大学。
紧随其后的是公有云巨头,Nvidia表示,AWS、Google Cloud、微软Azure和Oracle Cloud Infrastructure服务将在明年初率先部署基于H100的实例。
微软Azure AI Infrastructure总经理Nidhi Chappell表示:“我们期待在微软Azure上的H100 GPU上启用下一代AI模型,随着Hopper架构取得进展以及我们对Azure AI超级计算的投入,我们将能够帮助加入全球人工智能的发展。”
Constellation Research分析师Holger Mueller表示,今天这则公告向我们展示了Nvidia希望通过Hopper架构成为所有企业的AI运营平台这一愿望。Mueller说:“Hopper不仅可以在所有领先的云平台上使用,还可以在本地平台上使用,这让企业可以选择在几乎任何地方部署AI驱动的下一代应用。考虑到Nvidia芯片具有的强大功能,这将成为一个非常引人注目的产品,因为在未来十年,企业工作负载的运行位置将存在着很大的不确定性。”
最后,Nvidia表示,很多世界领先的大型AI模型和深度学习框架目前正在针对H100 GPU进行优化,包括Nvidia自己的NeMo Megatron框架,以及微软DeepSpeed、谷歌JAX、PyTorch、TensorFlow和XLA。
好文章,需要你的鼓励
Lumen Technologies对美国网络的数据中心和云连接进行重大升级,在16个高连接城市的70多个第三方数据中心提供高达400Gbps以太网和IP服务。该光纤网络支持客户按需开通服务,几分钟内完成带宽配置,最高可扩展至400Gbps且按使用量付费。升级后的网络能够轻松连接数据中心和云接入点,扩展企业应用,并应对AI和数据密集型需求波动。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
RtBrick研究警告,运营商面临AI和流媒体服务带宽需求"压倒性"风险。调查显示87%运营商预期客户将要求更高宽带速度,但81%承认现有架构无法应对下一波AI和流媒体流量。84%反映客户期望已超越网络能力。尽管91%愿意投资分解式网络,95%计划五年内部署,但仅2%正在实施。主要障碍包括领导层缺乏决策支持、运营转型复杂性和专业技能短缺。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。