GPU制造商Nvidia今天宣布了三项超级计算机相关创新,旨在扩展设计以便在更多数据中心内支持人工智能工作负载。
特别是Nvidia引入了基于Arm的服务器参考架构、可扩展的微软Azure云可访问超级计算机、面向数据科学家和人工智能的Magnum IO软件套件。Nvidia的GPU已经成为人工智能的首选处理器,因为Nvidia的GPU提供了支持图形和游戏的高度并行处理,被证明是机器学习的理想选择。
Nvidia首席执行官黄仁勋今天在SC19超级计算大会上发布了基于Arm的服务器架构参考平台。这个由硬件和软件构建块组成的参考设计平台,将使高性能计算开发行业能够利用更为广泛的CPU架构。
该平台将使超级计算中心、超大规模云运营商和企业把Nvidia基于CUDA软件的图形计算芯片与最新基于Arm的服务器平台相结合。
黄仁勋表示:“高性能计算领域正在复兴。机器学习和人工智能技术的突破,正在重新定义着各种科学方法,并为新架构提供了机会。将Nvidia GPU带入Arm体系中,将为创新者打开一扇大门,为创建从超大规模云到百亿亿次超级计算乃至更多新应用提供了系统。”
为了构建这个参考平台,Nvidia与Arm及其生态系统合作伙伴(包括Ampere Computing、Fujitsu和Marvell)展开了合作,以及与HPE及其子公司Cray的深度合作。
Nvidia还宣布开始支持微软Azure云NDv2超大型实例,该实例使用多达800个Nvidia Tensor Core GPU,连接到一个Mellanox InfiniBand后端网络上。
Nvidia表示,这让客户第一次可以在办公桌上就能按需租用整个人工智能超级计算机。
Nvidia副总裁兼加速计算总经理Ian Buck表示:“到目前为止,仍然只有全球最大型的企业组织能够使用面向人工智能和高性能计算的超级计算机。这款新产品实现了人工智能大众化,让人们使用一款基本工具就能解决一些最为严峻的挑战。”
这款新产品非常适合人工智能和机器学习工作负载,其性能优势远远超过传统基于CPU的计算。
微软和Nvidia的工程师使用64个NDv2实例在集群的预发布版本上训练BERT(一种流行的自然语言会话AI模型),时间仅仅花费了三个小时,而且一部分是通过Nvidia CUDA核心技术和Mellanox互连实现的。
Magnum IO是一款软件套件,旨在帮助数据科学家、人工智能和高性能计算研究人员能够在数分钟而不是数小时内处理大量的数据。
该软件套件和工具与传统模型相比,当处理海量数据集能够为多服务器、多GPU计算节点提供高达20倍的数据传输速度,因此非常适合进行大规模的复杂财务分析、气候建模和其他高性能计算工作负载。
黄仁勋表示:“处理大量收集来的数据或者模拟数据是像人工智能这样的数据科学的核心。”
Nvidia通过与计算、网络和存储领域的众多行业领导者紧密合作开发了Magnum IO,包括DataDirect Networks、Excelero、IBM、Mellanox和WekaIOLtd。
Magnum IO的核心是GPUDirect,该架构允许数据绕过CPU并使用GPU、存储和网络设备提供的“开放高速公路”来处理数据,发布之初该架构兼容众多采用点对点和远程访问直接内存的通信互连。
黄仁勋表示:“极端计算需要极端的I/O。Magnum IO通过将Nvidia GPU加速——具有革命性的计算基数——引入I/O和存储来实现这一点。现在,人工智能研究人员和数据科学家不用等待漫长的数据处理,可以把精力放在完成自己的工作上。”
最新推出的元素是GPUDirect Storage,它让研究人员可以在访问存储时绕过CPU,快速处理数据文件以进行仿真、分析或可视化。
Nvidia Magnum IO现已上市,但不包含GPUDirect Storage,GPUDirect Storage仅面向某些选定的早期客户,计划于2020年上半年全面上市。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。