在NeurIPS这一关注机器学习、计算机视觉等领域的业界知名会议上,NVIDIA Research带来了60多个项目,并展示了开创性成果
两篇NVIDIA Research的论文凭借对AI和机器学习领域的贡献而荣获2022年NeurIPS奖。其中一篇研究的是基于扩散的生成式AI模型,另一篇则是关于如何训练通用智能体。
本周在新奥尔良举行的NeurIPS大会和下周的NeurIPS在线会议中,60多场讲座、学术海报会和研讨会均有NVIDIA的论文作者参加。
针对图像、文本或视频等模态的合成数据生成(SDG)是贯穿NVIDIA论文的一大关键主题。其他主题还包括强化学习、数据采集和增强、气候模型以及联邦学习。
NVIDIA学习和感知研究副总裁Jan Kautz表示:“AI是一项极其重要的技术。从生成式AI到自主智能体,NVIDIA在各个领域都取得了飞快的进展。在生成式AI领域,我们不仅在推动自身对基础模型理论的理解,而且还在为更轻松地创建逼真的虚拟世界和模拟做出实际的贡献。”
重构基于扩散的生成式模型的设计
基于扩散的模型已成为生成式AI领域的一项开创性技术。NVIDIA研究人员凭借对扩散模型设计的分析获得了优秀主流论文奖(Outstanding Main Track Paper)。他们所提出的改进措施能够显著提高这些模型的效率和质量。
该论文将扩散模型的各个组成部分分解成模块,帮助开发者明确可以调整的流程,进而提高整个模型的性能。研究人员表示,经过他们修改的模型在AI生成图像质量评估中获得了创纪录的高分。
在基于《我的世界》游戏的模拟套件中训练通用智能体
虽然研究人员长期以来一直在《星际争霸》、《Dota》、《围棋》等视频游戏环境中训练自主智能体,但这些智能体一般只擅长少数任务。因此,NVIDIA研究人员开始转向全球最热门的游戏《我的世界》,开发了一个用于训练通用智能体(一种能够成功执行各种开放式任务的智能体)的可扩展训练框架。
这个名为MineDojo的框架使智能体能够利用一个由7000多个维基百科网页、数百万个Reddit帖子和30万小时游戏录像所组成的大规模在线数据库来学习《我的世界》的灵活玩法(如下图所示)。该项目获得了NeurIPS委员会颁发的优秀数据集和基准论文奖。
作为概念验证,MineDojo的研究人员创建了一个名为MineCLIP的大型基础模型。该模型学会了将YouTube上的《我的世界》游戏视频与视频字幕(包含玩家叙述屏幕上的动作)相关联。通过MineCLIP,该团队训练出了一个能够在没有人类干预的情况下执行《我的世界》中若干任务的强化学习智能体。
创建构建虚拟世界的复杂 3D 几何体
本届NeurIPS上还展示了GET3D。这个生成式AI模型可根据其所训练的建筑物、汽车、动物等2D图像类别,即时合成3D几何体。AI生成的物体具有高保真的纹理和复杂的几何细节,并且以常用图形软件应用中所使用的三角网格格式创建,这使得用户可以十分轻松地将这些几何体导入3D渲染器和游戏引擎,以进行后续编辑。
GET3D即Generate Explicit Textured 3D 的缩写,正如其名,它具备生成具有显示纹理的3D 网格的能力。该模型是在NVIDIA A100 Tensor Core GPU上使用从不同相机角度拍摄的约100万张3D几何体的2D图像训练而成。该模型在单颗NVIDIA GPU上运行推理时,每秒可生成约20个物体。
AI生成的物体可用于构建为游戏、机器人、建筑、社交媒体等行业设计的数字空间,比如建筑物、户外空间或整座城市的3D表达。
通过对材质和光照的控制,改进可逆渲染流程
在6月于新奥尔良举行的最近一次CVPR会议上,NVIDIA Research发布了3D MoMa。这种可逆渲染方法使开发者能够创建由3D网格模型、覆盖在模型上的材质以及光照这三个不同部分所组成的3D物体。
此后,该团队在分离3D物体中的材质和光照方面取得了重大进展,这反过来又提高了AI生成几何体的可编辑能力,创造者们能够轻松地对在场景中移动的物体替换材质或者调整光照。
本次发布相关精彩视频已在NVIDIA中国西瓜视频账号发布,也可直接在附件下载使用:
3D MoMa 材质和光照演示
这项研究工作依靠的着色模型采用NVIDIA RTX GPU加速光线追踪技术,更为逼真。该成果正在NeurIPS大会上以海报形式展示。
提高语言模型生成文本的事实准确性
另一篇被NeurIPS收录的论文研究的是预训练语言模型的一项重大难题——AI生成文本的事实准确性。
由于AI只是通过关联单词来预测句子接下来的内容,因此为生成开放式文本而训练的语言模型往往会产生包含非事实信息的文本。在这篇论文中,NVIDIA研究人员提出了能够突破这一局限性的技术,这也是为现实世界应用部署此类模型的必要前提。
研究人员建立了首个能够衡量生成开放式文本语言模型事实准确性的自动化基准,并发现拥有数十亿参数的大型语言模型比小型语言模型的事实准确性更高。该研究团队提出了一项新的技术——事实性强化训练,以及一种新颖的采样算法,通过两者的结合,助力训练语言模型生成准确的文本,并且将事实性错误率从33%降低到15%左右。
目前,NVIDIA在全球共有300多名研究人员,团队专注的课题领域涵盖AI、计算机图形学、计算机视觉、自动驾驶汽车和机器人技术等。进一步了解NVIDIA Research并查看NeurIPS收录的所有NVIDIA论文列表。
好文章,需要你的鼓励
DeepSeek 的 AI 模型在处理效率方面取得重大突破,可能对数据中心产生深远影响。尽管引发了科技股抛售,但业内专家认为,这项创新将推动 AI 应用普及,促进大规模和分布式数据中心基础设施需求增长。更高效的 AI 算法有望降低成本、扩大应用范围,从而加速数据中心行业发展。
Rivian 正全面推进 AI 技术整合,开发下一代电动车平台,以挑战特斯拉的市场地位。公司计划于 2025 年实现免手驾驶,2026 年达到 L3 级自动驾驶。Rivian 还将在车载系统中广泛应用 AI 技术,提供语音交互等功能,并计划推出更实惠的车型,扩大市场份额。
Postman 发布了 AI 代理构建器,这是一款创新的生成式 AI 工具。它允许开发者通过整合大语言模型、API 和工作流程来设计、构建、测试和部署智能代理。这一工具旨在简化 API 交互、优化工作流程,并支持创建能执行复杂任务的智能代理,标志着 API 优先的 AI 开发迈出了重要一步。
微软第二财季利润同比增长10%,人工智能年化收入达130亿美元。然而,云计算业务未达预期,下季度指引不及预期,导致盘后股价下跌。公司资本支出创新高,以满足AI和云需求。尽管Azure增长放缓,但微软对下半年增速加快持乐观态度。同时,中国AI初创公司DeepSeek的崛起引发业界对AI基础设施投资的重新审视。