NVIDIA本周在德国慕尼黑举行的年度机器人学习大会上推出了这些新工具,大会重点关注了机器人技术和机器学习的交叉领域。
其中,包括现已上市的机器人学习框架NVIDIA Isaac Lab;6个用于Project GR00T的新人形机器人学习工作流程,以支持AI机器人大脑开发;以及用于视频处理的新开发人员工具。
观察和理解世界对于机器人技术发展至关重要。这就必须要分解来自摄像头的视频,以便AI模型可以处理这些视频。NVIDIA宣布Cosmos开源标记器现在已经全面上市,为开发者提供了高质量的标记功能,具有极高的压缩率,运行速度比当前的标记器快12倍,与NeMo Curator相结合可以优化和理解输入内容。
这也使开发者能够构建更好的“世界模型”(即世界的AI表示),可以预测机器人执行动作时物体和环境将如何响应。
例如,当机器人夹持器靠近香蕉时会发生什么?成熟的香蕉很软,因此机器人夹持器不能快速或用力靠近,否则会破碎、变形并造成混乱。一张纸呢?必须以不同的方式抓取纸。不管是哪一种情况,都涉及视频数据的高质量编码和解码。
人形机器人初创公司1X Technologies的AI副总裁Eric Jang解释说,Cosmos标记器帮助他的公司实现了高数据压缩,同时仍保持极高的视觉质量。他说:“这使我们能够以更高效的方式训练具有长视界视频生成的世界模型。”
并非所有机器人AI大脑都可以在现实世界中训练,因此NVIDIA发布了Isaac Lab,这是一个基于Omniverse数字孪生模拟平台的开源机器人学习框架。
Omniverse是一个实时3D图形协作和模拟平台,让艺术家、开发者和企业使用完全实现的物理学构建工厂、城市和其他空间的逼真的3D模型和场景,这使其成为模拟虚拟环境以训练机器人的一款强大工具。
开发者可以使用Isaac Lab训练机器人并大规模调整策略,以了解性能和安全性。这个框架适用于任何框架和机器人化身,包括手臂、人形机器人、四足动物和群体。
NVIDIA表示,全球有很多商用机器人制造商和研究团体已经把Isaac Lab纳入他们的工作流程中,包括Agility Robots、Boston Dynamics、1X、Galbot、Fourier、Mentee Robotics和Berkeley Humanoid。
Project GR00T和更多人形机器人工作流程
构建和开发先进的人形机器人是一项艰巨的挑战,因为人类可以轻松完成的行走、感知和采取行动需要大量的硬件工程、AI训练和AI计算,才能让机器人完成看似简单的任务。
Project GR00T是NVIDIA的一项计划,为开发者提供通用人形机器人的AI基础模型、软件库和数据管道,帮助开发者快速制作原型并更快展开构建。
为了帮助开发者构建先进的人形机器人,NVIDIA宣布推出了6个新的Project GR00T工作流程蓝图,帮助他们在机器人中开发新的功能。
GR00T-Gen让开发者可以打造逼真的模拟环境,以训练机器人在其中移动、操纵物体和执行其他任务。它使用大型语言模型和3D生成式AI模型来创建视觉多样化的场景和随机场景,帮助创建强大的训练环境。
GR00T-Mimic让机器人可以向人类老师学习。使用这种工作流程,人类演示者可以远程操作机器人并以与人类相同的方式执行操作,例如在仓库中走动、从货架上拉出箱子并将箱子放在推车上,让机器人在相同的环境中也可以模仿相同的动作。NVIDIA表示,这个方法使用物理世界中有限数量的人类演示,使用扩展现实例如Apple Vision Pro,然后缩放运动数据以帮助机器人自己产生更有机的运动。
GR00T-Dexterity和GR00T-Control为人形机器人提供了一套精细的灵巧操作和广泛的身体控制模型和策略。Dexterity将帮助开发者使用具有执行器和指关节高度灵巧的手的机器人,并处理未抓握、抓握力和其他抓握动作。GR00T-Control将有助于为整个身体进行运动规划,以便行走、移动四肢或执行任务。
GR00T-Mobility为开发者提供了一套模型,帮助人形机器人行走和绕过障碍物,旨在实现基于学习的方法,快速推广到新环境中。
最后,GR00T-Perception增加了高级软件库和人机交互基础模型,帮助机器人“记住”事件的长期历史。为此,NVIDIA为Perception添加了恰如其名的ReMEmbR,为机器人提供个性化人类互动的记忆,并提供背景和空间意识,以提供更好的感知、认知和适应能力。
好文章,需要你的鼓励
UniR(Universal Reasoner)是一种创新的推理增强方法,可为冻结的大语言模型提供即插即用的推理能力。由韩国科学技术院研究团队开发,该方法将推理能力分解为独立的轻量级模块,无需改变主模型结构。UniR的核心优势在于高效训练(仅更新小型推理模块)、出色的模型间迁移能力(小模型可指导大模型)以及模块组合能力(多个专用模块可通过logits相加组合使用)。在数学推理和翻译测试中,UniR显著超越现有微调方法,展示了轻量级模块如何有效增强大语言模型的推理能力。
Nebius团队开发了SWE-rebench,一个自动化管道用于从GitHub收集软件工程任务并进行去污染评估。该系统解决了两大挑战:高质量训练数据稀缺和评估基准容易被污染。通过四阶段处理(初步收集、自动安装配置、执行验证和质量评估),SWE-rebench构建了包含超过21,000个Python交互式任务的数据集,并提供持续更新的评估基准。研究发现部分语言模型在传统基准上的表现可能被污染效应夸大,而DeepSeek模型在开源模型中表现最为稳健。
这项研究提出了JQL(发音为"Jackal"),一种通过多语言方法提升大型语言模型预训练数据质量的创新系统。研究团队从拉马尔研究所等机构通过四阶段方法解决了多语言数据筛选的难题:先由人类评估内容教育价值创建基准数据,然后评估大型语言模型作为"评判者"的能力,接着将这些能力提炼到轻量级评估器中,最后应用于大规模数据筛选。实验表明,JQL在35种语言上显著优于现有方法,甚至能泛化到未见过的语言如阿拉伯语和中文,为多语言AI发展提供了高效可靠的数据筛选方案。
浙江大学和西湖大学研究团队开发的Styl3R实现了艺术风格化3D重建的重大突破,能在不到一秒内从少量未标定照片和任意风格图像创建具有多视角一致性的3D艺术场景。通过创新的双分支网络架构将结构建模与外观着色分离,系统不仅保持了原始场景结构,还准确捕捉了参考风格特征。与现有方法相比,Styl3R在处理速度和视觉质量上均显著领先,为创意内容制作开辟了全新可能。