Nvidia今天发布了一款新的高性能GPU,面向基于Ampere架构的人工智能训练和推理。
Nvidia表示,这款名为Nvidia A100的GPU芯片性能比上一代Volta GPU提升了20倍,非常适合于人工智能、数据分析、科学计算和云图形工作负载。
Nvidia在今天线上举行的GTC大会上公布了这款GPU,同时还发布了新的AI系统Nvidia DGX A100。Nvidia还向EGX Edge AI平台生态系统中添加了两款新产品,EGX A100融合加速器和EGX Jetson Xavier NX微边缘服务器,让客户有更多基于性能和成本要求的选择。
Nvidia数据中心和云平台产品管理总监Paresh Kharya在新闻发布会上表示,如今客户需要比Nvidia最早Volta AI架构高出3000倍的计算性能来训练那些最大的AI模型,而且他们还需要不同的性能水平去支持不同类型的、AI驱动的交互。
Kharya说:“软件多样性让数据中心硬件变得支离破碎。优化这种数据中心以实现高效率几乎是不可能的。”
因此,Nvidia决定利用A100重构GPU。A100芯片不仅可以大幅提升性能,而且可以在单个架构中实现AI训练和推理加速的统一。A100还可以实现大规模数据中心可扩展性,包括针对AI训练和数据分析的纵向扩展能力,以及针对AI推理的横向扩展能力。
Nvidia表示,A100 Ampere芯片是Nvidia迄今为止生产出来的最大的GPU,由540亿个晶体管组成,还打包了第三代Tensor核心,并具有针对稀疏矩阵运算的加速功能,对于AI推理和训练来说特别有用。此外,每个GPU可以划分为多个实例,执行不同的推理任务,采用Nvidia NVLink互连技术可以将多个A100 GPU用于更大的AI推理工作负载。
A100 GPU现在已经开始发售,并将在今天发布的Nvidia DGX A100第三代集成AI系统(如下图所示)中首次亮相。该系统包含8个A100 GPU,总共可提供320 GB的巨大内存,使其成为世界上最先进的AI系统。据说A100可以提供多达5 petaflops的AI性能,可以有效地将整个数据中心的功能和能力整合到一个灵活的平台中。
Nvidia方面表示,DGX A100平台还可以处理多个较小的AI工作负载,因为A100的多实例特性使其可以分区为56个实例。
Nvidia首席执行官黄仁勋在新闻发布会上表示:“这是我们第一次加速数据中心AI训练和推理以及数据分析工作负载。我希望DGX A100可以用于所有云中,计算的未来就在于数据中心规模。”
Nvidia表示,DGX A100平台的售价是20万美元,首批客户包括美国能源部阿贡国家实验室(Argonne Laboratory),该实验室预计增强AI和计算能力之后将有助于研究人员更好地理解和对抗COVID-19。
此外Oracle也采用了该平台,并称Oracle Cloud Infrastructure平台很快将提供A100 GPU,用于支持石油勘探和DNA测序等高性能计算工作负载。
A100 GPU还采用了Nvidia EGX A100融合加速器中的一些功能,该加速器将于今年晚些时候上市销售,能够实时处理和保护来自边缘传感器的流数据。Nvidia表示,EGX Jetson Xavier NX微型边缘服务器(如下图所示)是Nvidia有史以来最小的、功能最强大的AI超级计算机,它将Nvidia Xavier片上系统的功能整合到只有信用卡大小的模块中,可以流式传输来自多个高端分辨率传感器的数据,例如便利店中的安全摄像头等。
黄仁勋在声明中表示:“物联网和AI的融合引发了‘万物智能’的变革。大型行业现在可以提供智能连接的产品和服务,就像电信行业使用的智能手机一样。Nvidia EGX Edge AI平台将标准服务器转变为微型的、云原生的、安全的AI数据中心。企业借助我们的AI应用框架,可以构建从智能零售到机器人工厂再到自动呼叫中心的各种AI服务。”
Nvidia还宣布,汽车制造商宝马(BMW Group)已经在自己的汽车工厂中采用了Nvidia最新的Isaac机器人平台。该平台也采用了Nvidia Ampere A100 GPU,并将被宝马用于增强其物流工厂流程,从而更高效、更快速地生产定制配置型汽车。Nvidia表示,宝马将在全球工厂中部署Nvidia的这一新系统。
黄仁勋称:“宝马采用Nvidia Isaac机器人平台重构工厂是具有变革意义的,这引领了自动化工厂时代的发展,利用AI和机器人技术突破,创造了高度可定制的、按时按序制造的更高水平。”
Nvidia Isaac机器人平台采用DGX AI系统,以及Nvidia Quadro光线跟踪GPU以精确渲染合成机器零件,从而强化对机器人的训练。
Nvidia还公布了Nvidia Clara医疗平台的一项重要性能突破,多个新合作伙伴,以及一系列将有助于更好追踪、测试和治疗COVID-19的功能。
Nvidia表示,在性能方面Clara Parabricks计算基因组学软件在不到20分钟的时间内,就可以分析出整个人类基因组DNA序列,创下了速度新高。Nvidia还宣布推出了与美国国立卫生研究院(National Institutes of Health)合作开发的AI模型新模型,该模型可以帮助研究人员研究COVID-19胸部CT扫描,并打造用于检测感染的新工具。目前这个AI模型在NGC软件中心最新版本的Clara Imaging中提供给用户,采用了Nvidia Clara应用框架构用于医学成像。
此外Nvidia还公布了一个新的Clara Guardian应用框架,使用智能视频分析和自动语音识别技术,让医务人员可以进行生命体征监测,减少与受感染患者的接触。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。