NVIDIA本周在德国慕尼黑举行的年度机器人学习大会上推出了这些新工具,大会重点关注了机器人技术和机器学习的交叉领域。

其中,包括现已上市的机器人学习框架NVIDIA Isaac Lab;6个用于Project GR00T的新人形机器人学习工作流程,以支持AI机器人大脑开发;以及用于视频处理的新开发人员工具。
观察和理解世界对于机器人技术发展至关重要。这就必须要分解来自摄像头的视频,以便AI模型可以处理这些视频。NVIDIA宣布Cosmos开源标记器现在已经全面上市,为开发者提供了高质量的标记功能,具有极高的压缩率,运行速度比当前的标记器快12倍,与NeMo Curator相结合可以优化和理解输入内容。
这也使开发者能够构建更好的“世界模型”(即世界的AI表示),可以预测机器人执行动作时物体和环境将如何响应。
例如,当机器人夹持器靠近香蕉时会发生什么?成熟的香蕉很软,因此机器人夹持器不能快速或用力靠近,否则会破碎、变形并造成混乱。一张纸呢?必须以不同的方式抓取纸。不管是哪一种情况,都涉及视频数据的高质量编码和解码。
人形机器人初创公司1X Technologies的AI副总裁Eric Jang解释说,Cosmos标记器帮助他的公司实现了高数据压缩,同时仍保持极高的视觉质量。他说:“这使我们能够以更高效的方式训练具有长视界视频生成的世界模型。”
并非所有机器人AI大脑都可以在现实世界中训练,因此NVIDIA发布了Isaac Lab,这是一个基于Omniverse数字孪生模拟平台的开源机器人学习框架。
Omniverse是一个实时3D图形协作和模拟平台,让艺术家、开发者和企业使用完全实现的物理学构建工厂、城市和其他空间的逼真的3D模型和场景,这使其成为模拟虚拟环境以训练机器人的一款强大工具。
开发者可以使用Isaac Lab训练机器人并大规模调整策略,以了解性能和安全性。这个框架适用于任何框架和机器人化身,包括手臂、人形机器人、四足动物和群体。
NVIDIA表示,全球有很多商用机器人制造商和研究团体已经把Isaac Lab纳入他们的工作流程中,包括Agility Robots、Boston Dynamics、1X、Galbot、Fourier、Mentee Robotics和Berkeley Humanoid。
Project GR00T和更多人形机器人工作流程
构建和开发先进的人形机器人是一项艰巨的挑战,因为人类可以轻松完成的行走、感知和采取行动需要大量的硬件工程、AI训练和AI计算,才能让机器人完成看似简单的任务。
Project GR00T是NVIDIA的一项计划,为开发者提供通用人形机器人的AI基础模型、软件库和数据管道,帮助开发者快速制作原型并更快展开构建。
为了帮助开发者构建先进的人形机器人,NVIDIA宣布推出了6个新的Project GR00T工作流程蓝图,帮助他们在机器人中开发新的功能。
GR00T-Gen让开发者可以打造逼真的模拟环境,以训练机器人在其中移动、操纵物体和执行其他任务。它使用大型语言模型和3D生成式AI模型来创建视觉多样化的场景和随机场景,帮助创建强大的训练环境。
GR00T-Mimic让机器人可以向人类老师学习。使用这种工作流程,人类演示者可以远程操作机器人并以与人类相同的方式执行操作,例如在仓库中走动、从货架上拉出箱子并将箱子放在推车上,让机器人在相同的环境中也可以模仿相同的动作。NVIDIA表示,这个方法使用物理世界中有限数量的人类演示,使用扩展现实例如Apple Vision Pro,然后缩放运动数据以帮助机器人自己产生更有机的运动。
GR00T-Dexterity和GR00T-Control为人形机器人提供了一套精细的灵巧操作和广泛的身体控制模型和策略。Dexterity将帮助开发者使用具有执行器和指关节高度灵巧的手的机器人,并处理未抓握、抓握力和其他抓握动作。GR00T-Control将有助于为整个身体进行运动规划,以便行走、移动四肢或执行任务。
GR00T-Mobility为开发者提供了一套模型,帮助人形机器人行走和绕过障碍物,旨在实现基于学习的方法,快速推广到新环境中。
最后,GR00T-Perception增加了高级软件库和人机交互基础模型,帮助机器人“记住”事件的长期历史。为此,NVIDIA为Perception添加了恰如其名的ReMEmbR,为机器人提供个性化人类互动的记忆,并提供背景和空间意识,以提供更好的感知、认知和适应能力。
好文章,需要你的鼓励
AI芯片初创公司Neurophos完成1.1亿美元A轮融资,由Gates Frontier领投,微软M12等多家机构参投。公司开发光学处理单元(OPU),在单芯片上集成超百万个微米级光学处理元件,性能较现有AI处理器提升100倍。该技术利用光子替代电子,突破传统GPU功耗限制,时钟速度超100吉赫兹。公司计划2027年启动试点项目,2028年量产完整系统。
莫斯科研究院开发的KAGE-Bench平台革新了AI视觉智能测试方法,通过34个专项测试和超高速计算能力,能够精确诊断AI在不同视觉环境下的适应性问题,为自动驾驶、机器人等实际应用提供重要工具,推动AI视觉鲁棒性研究进入新阶段。
存储软件公司Hammerspace首席营收官杰夫·詹内蒂离职,首席战略与业务发展官托尼·阿萨罗接任销售业务。詹内蒂去年1月加入公司,建立了战略合作伙伴关系和渠道直销两个销售组织,现合并由阿萨罗统一领导。同时,Hammerspace正与甲骨文合作建立专用云基础设施区域,通过全球数据平台软件协调文件和对象存储,支持英伟达GPU Direct技术。
约翰霍普金斯大学研究团队开发了RemoteVAR系统,这是一种模仿人类认知方式的卫星图像变化检测技术。该系统采用"由粗到细"的逐步分析方法,像侦探审视证据一样先观察整体后聚焦细节,在建筑物变化检测方面取得了优异表现,F1得分达到0.930。这项技术可广泛应用于城市规划、环境保护和灾害应对等领域,为及时准确地发现地面变化提供了新的解决方案。