在NeurIPS这一关注机器学习、计算机视觉等领域的业界知名会议上,NVIDIA Research带来了60多个项目,并展示了开创性成果
两篇NVIDIA Research的论文凭借对AI和机器学习领域的贡献而荣获2022年NeurIPS奖。其中一篇研究的是基于扩散的生成式AI模型,另一篇则是关于如何训练通用智能体。
本周在新奥尔良举行的NeurIPS大会和下周的NeurIPS在线会议中,60多场讲座、学术海报会和研讨会均有NVIDIA的论文作者参加。
针对图像、文本或视频等模态的合成数据生成(SDG)是贯穿NVIDIA论文的一大关键主题。其他主题还包括强化学习、数据采集和增强、气候模型以及联邦学习。
NVIDIA学习和感知研究副总裁Jan Kautz表示:“AI是一项极其重要的技术。从生成式AI到自主智能体,NVIDIA在各个领域都取得了飞快的进展。在生成式AI领域,我们不仅在推动自身对基础模型理论的理解,而且还在为更轻松地创建逼真的虚拟世界和模拟做出实际的贡献。”
重构基于扩散的生成式模型的设计
基于扩散的模型已成为生成式AI领域的一项开创性技术。NVIDIA研究人员凭借对扩散模型设计的分析获得了优秀主流论文奖(Outstanding Main Track Paper)。他们所提出的改进措施能够显著提高这些模型的效率和质量。
该论文将扩散模型的各个组成部分分解成模块,帮助开发者明确可以调整的流程,进而提高整个模型的性能。研究人员表示,经过他们修改的模型在AI生成图像质量评估中获得了创纪录的高分。
在基于《我的世界》游戏的模拟套件中训练通用智能体
虽然研究人员长期以来一直在《星际争霸》、《Dota》、《围棋》等视频游戏环境中训练自主智能体,但这些智能体一般只擅长少数任务。因此,NVIDIA研究人员开始转向全球最热门的游戏《我的世界》,开发了一个用于训练通用智能体(一种能够成功执行各种开放式任务的智能体)的可扩展训练框架。
这个名为MineDojo的框架使智能体能够利用一个由7000多个维基百科网页、数百万个Reddit帖子和30万小时游戏录像所组成的大规模在线数据库来学习《我的世界》的灵活玩法(如下图所示)。该项目获得了NeurIPS委员会颁发的优秀数据集和基准论文奖。
作为概念验证,MineDojo的研究人员创建了一个名为MineCLIP的大型基础模型。该模型学会了将YouTube上的《我的世界》游戏视频与视频字幕(包含玩家叙述屏幕上的动作)相关联。通过MineCLIP,该团队训练出了一个能够在没有人类干预的情况下执行《我的世界》中若干任务的强化学习智能体。
创建构建虚拟世界的复杂 3D 几何体
本届NeurIPS上还展示了GET3D。这个生成式AI模型可根据其所训练的建筑物、汽车、动物等2D图像类别,即时合成3D几何体。AI生成的物体具有高保真的纹理和复杂的几何细节,并且以常用图形软件应用中所使用的三角网格格式创建,这使得用户可以十分轻松地将这些几何体导入3D渲染器和游戏引擎,以进行后续编辑。
GET3D即Generate Explicit Textured 3D 的缩写,正如其名,它具备生成具有显示纹理的3D 网格的能力。该模型是在NVIDIA A100 Tensor Core GPU上使用从不同相机角度拍摄的约100万张3D几何体的2D图像训练而成。该模型在单颗NVIDIA GPU上运行推理时,每秒可生成约20个物体。
AI生成的物体可用于构建为游戏、机器人、建筑、社交媒体等行业设计的数字空间,比如建筑物、户外空间或整座城市的3D表达。
通过对材质和光照的控制,改进可逆渲染流程
在6月于新奥尔良举行的最近一次CVPR会议上,NVIDIA Research发布了3D MoMa。这种可逆渲染方法使开发者能够创建由3D网格模型、覆盖在模型上的材质以及光照这三个不同部分所组成的3D物体。
此后,该团队在分离3D物体中的材质和光照方面取得了重大进展,这反过来又提高了AI生成几何体的可编辑能力,创造者们能够轻松地对在场景中移动的物体替换材质或者调整光照。
本次发布相关精彩视频已在NVIDIA中国西瓜视频账号发布,也可直接在附件下载使用:
3D MoMa 材质和光照演示
这项研究工作依靠的着色模型采用NVIDIA RTX GPU加速光线追踪技术,更为逼真。该成果正在NeurIPS大会上以海报形式展示。
提高语言模型生成文本的事实准确性
另一篇被NeurIPS收录的论文研究的是预训练语言模型的一项重大难题——AI生成文本的事实准确性。
由于AI只是通过关联单词来预测句子接下来的内容,因此为生成开放式文本而训练的语言模型往往会产生包含非事实信息的文本。在这篇论文中,NVIDIA研究人员提出了能够突破这一局限性的技术,这也是为现实世界应用部署此类模型的必要前提。
研究人员建立了首个能够衡量生成开放式文本语言模型事实准确性的自动化基准,并发现拥有数十亿参数的大型语言模型比小型语言模型的事实准确性更高。该研究团队提出了一项新的技术——事实性强化训练,以及一种新颖的采样算法,通过两者的结合,助力训练语言模型生成准确的文本,并且将事实性错误率从33%降低到15%左右。
目前,NVIDIA在全球共有300多名研究人员,团队专注的课题领域涵盖AI、计算机图形学、计算机视觉、自动驾驶汽车和机器人技术等。进一步了解NVIDIA Research并查看NeurIPS收录的所有NVIDIA论文列表。
好文章,需要你的鼓励
微软宣布为Word和Excel推出基于OpenAI的AI代理模式,通过简单提示即可自动生成文档和分析数据。Word用户可享受"氛围写作"功能,利用现有文档组装报告和提案。Excel代理能分析电子表格数据并生成可视化报告。尽管在SpreadsheetBench基准测试中准确率仅为57.2%,低于人类平均水平71.3%,但微软强调其针对实际工作场景优化。此外,微软还发布了基于Anthropic的Office代理,显示其正逐步减少对OpenAI的依赖。
苹果与清华合作提出EpiCache技术,解决AI长期对话中的记忆管理难题。该方法将对话自动分割成话题片段,为每个话题建立专门记忆库,实现智能匹配和高效检索。实验显示,EpiCache比传统方法准确率提高40%,内存使用减少4-6倍,响应速度提升2.4倍,为资源受限环境下的AI对话系统提供了实用解决方案。
OpenAI为美国ChatGPT用户推出"即时结账"功能,用户可在对话中直接购买Etsy和Shopify商品,无需跳转至外部网站。该功能支持Apple Pay、Google Pay等多种支付方式,并计划接入超过100万家Shopify商户。OpenAI还将开源其代理商务协议技术,与谷歌的代理支付协议形成竞争。这标志着电商购物模式的重大转变,AI聊天机器人可能重塑在线零售发现和支付生态系统。
清华大学与英伟达合作提出DiffusionNFT,一种革命性的AI图像生成训练方法。该方法通过对比正负样本进行学习,避免了复杂的概率计算,训练效率比传统方法提升25倍。研究团队在多项测试中验证了其优越性,不仅大幅提升了图像质量和文字渲染能力,还实现了无需分类器引导的高效训练,为AI图像生成技术的普及和应用奠定了重要基础。