在今天举行的2022 GPU Technology Conference大会上,英伟达宣布推出了强大的下一代GPU。
新款GPU基于Nvidia Hopper架构(如图),英伟达承诺该芯片与两年前推出的上一代Ampere芯片相比,性能提升了一个数量级。

第一款基于Hopper架构的GPU是Nvidia H100,一个强大的加速器,包含了800亿个晶体管和多项新功能,其中有Transformer Engine以及可扩展性更高的Nvidia NVLink互连功能,用于提升大型AI语言模型、深度推荐系统等等。
英伟达表示,H100 GPU非常强大,只需20个这样的GPU就可以承载全球所有互联网流量,这也让H100成为那些最先进的AI工作负载的理想选择,例如数据实时推理等。同时,这也是首款支持PCIe Gen5和使用HBM3的GPU,后者意味着H100拥有超过3TB的内存带宽。
重要的是,英伟达H100 GPU更新采用了新的Transformer Engine,可以将基于Transformer的自然语言处理模型速度提高到是上一代A100 GPU的6倍。其他改进还包括第二代安全多实例GPU技术,可将单个H100芯片划分为7个更小的、完全隔离的实例,也就意味着可以同时处理多个工作负载。
H100同时也是第一款拥有机密计算能力的GPU,可在AI模型及其运行时保护它们的数据。此外,H100拥有新的DPX指令,可以实现加速动态编程,一种在很多优化、数据处理和组学算法中常用的技术,英伟达称,其速度是现有最先进的CPU的40倍。因此,H100芯片可以用于加速自主机器人编队使用的Floyd-Warshall算法,或者用于DNA和蛋白质分类序列比对的Smith-Waterman算法。
英伟达表示,H100 GPU旨在为使用大规模AI模型的沉浸式实时应用提供动力,让更高级的聊天机器人能够使用有史以来最为强大的单片变压器语言模型——Megatraon 530B,且吞吐量比A100 GPU高出30倍。英伟达承诺,该芯片还能让研究人员更快速地训练其他大型AI模型。
英伟达表示,除了为AI模型提供动力之外,H100 GPU还将在机器人、医疗、量子计算和数据科学等领域带来重大影响。
H100将于第三季度上市,届时客户将有一系列可用的选项,例如英伟达表示,第四代DGX 系统DGX H100将包含8个H100 GPU,最高可以实现32 petaflops的AI性能。H100芯片也将通过云服务厂商提供,包括AWS、Google Cloud、微软Azure、Oracle Cloud、阿里云、百度AI云和腾讯云,所有这些厂商都计划提供基于H100的实例。
此外,戴尔、HPE、思科、Atos、联想等厂商还将提供一系列采用H100的服务器产品。
除了H100 GPU之外,英伟达还推出了首款基于Arm Neoverse的离散数据中心CPU,专为针对AI基础设施和高性能计算而设计。
这款名为Nvidia Grace CPU Superchip的CPU,包含了2个通过NVLink-C2C(一种新的高速和低延迟芯片到芯片互连技术)连接的CPU,是对英伟达去年推出的首款CPU-GPU整合模块Hopper Superchip的一个补充。Nvidia Grace CPU Superchip将144个Arm核心打包在一个插槽中,支持Arm新一代矢量扩展和英伟达所有计算软件堆栈,包括Nvidia RTX、Nvidia HPC、Nvidia AI和Omniverse。
这些芯片也将于第三季度推出,届时将为那些要求最为苛刻的高性能计算、人工智能、数据分析、科学计算和超大规模计算应用提供所需的性能。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。