NVIDIA本周在德国慕尼黑举行的年度机器人学习大会上推出了这些新工具,大会重点关注了机器人技术和机器学习的交叉领域。
其中,包括现已上市的机器人学习框架NVIDIA Isaac Lab;6个用于Project GR00T的新人形机器人学习工作流程,以支持AI机器人大脑开发;以及用于视频处理的新开发人员工具。
观察和理解世界对于机器人技术发展至关重要。这就必须要分解来自摄像头的视频,以便AI模型可以处理这些视频。NVIDIA宣布Cosmos开源标记器现在已经全面上市,为开发者提供了高质量的标记功能,具有极高的压缩率,运行速度比当前的标记器快12倍,与NeMo Curator相结合可以优化和理解输入内容。
这也使开发者能够构建更好的“世界模型”(即世界的AI表示),可以预测机器人执行动作时物体和环境将如何响应。
例如,当机器人夹持器靠近香蕉时会发生什么?成熟的香蕉很软,因此机器人夹持器不能快速或用力靠近,否则会破碎、变形并造成混乱。一张纸呢?必须以不同的方式抓取纸。不管是哪一种情况,都涉及视频数据的高质量编码和解码。
人形机器人初创公司1X Technologies的AI副总裁Eric Jang解释说,Cosmos标记器帮助他的公司实现了高数据压缩,同时仍保持极高的视觉质量。他说:“这使我们能够以更高效的方式训练具有长视界视频生成的世界模型。”
并非所有机器人AI大脑都可以在现实世界中训练,因此NVIDIA发布了Isaac Lab,这是一个基于Omniverse数字孪生模拟平台的开源机器人学习框架。
Omniverse是一个实时3D图形协作和模拟平台,让艺术家、开发者和企业使用完全实现的物理学构建工厂、城市和其他空间的逼真的3D模型和场景,这使其成为模拟虚拟环境以训练机器人的一款强大工具。
开发者可以使用Isaac Lab训练机器人并大规模调整策略,以了解性能和安全性。这个框架适用于任何框架和机器人化身,包括手臂、人形机器人、四足动物和群体。
NVIDIA表示,全球有很多商用机器人制造商和研究团体已经把Isaac Lab纳入他们的工作流程中,包括Agility Robots、Boston Dynamics、1X、Galbot、Fourier、Mentee Robotics和Berkeley Humanoid。
Project GR00T和更多人形机器人工作流程
构建和开发先进的人形机器人是一项艰巨的挑战,因为人类可以轻松完成的行走、感知和采取行动需要大量的硬件工程、AI训练和AI计算,才能让机器人完成看似简单的任务。
Project GR00T是NVIDIA的一项计划,为开发者提供通用人形机器人的AI基础模型、软件库和数据管道,帮助开发者快速制作原型并更快展开构建。
为了帮助开发者构建先进的人形机器人,NVIDIA宣布推出了6个新的Project GR00T工作流程蓝图,帮助他们在机器人中开发新的功能。
GR00T-Gen让开发者可以打造逼真的模拟环境,以训练机器人在其中移动、操纵物体和执行其他任务。它使用大型语言模型和3D生成式AI模型来创建视觉多样化的场景和随机场景,帮助创建强大的训练环境。
GR00T-Mimic让机器人可以向人类老师学习。使用这种工作流程,人类演示者可以远程操作机器人并以与人类相同的方式执行操作,例如在仓库中走动、从货架上拉出箱子并将箱子放在推车上,让机器人在相同的环境中也可以模仿相同的动作。NVIDIA表示,这个方法使用物理世界中有限数量的人类演示,使用扩展现实例如Apple Vision Pro,然后缩放运动数据以帮助机器人自己产生更有机的运动。
GR00T-Dexterity和GR00T-Control为人形机器人提供了一套精细的灵巧操作和广泛的身体控制模型和策略。Dexterity将帮助开发者使用具有执行器和指关节高度灵巧的手的机器人,并处理未抓握、抓握力和其他抓握动作。GR00T-Control将有助于为整个身体进行运动规划,以便行走、移动四肢或执行任务。
GR00T-Mobility为开发者提供了一套模型,帮助人形机器人行走和绕过障碍物,旨在实现基于学习的方法,快速推广到新环境中。
最后,GR00T-Perception增加了高级软件库和人机交互基础模型,帮助机器人“记住”事件的长期历史。为此,NVIDIA为Perception添加了恰如其名的ReMEmbR,为机器人提供个性化人类互动的记忆,并提供背景和空间意识,以提供更好的感知、认知和适应能力。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。