NVIDIA本周在德国慕尼黑举行的年度机器人学习大会上推出了这些新工具,大会重点关注了机器人技术和机器学习的交叉领域。
其中,包括现已上市的机器人学习框架NVIDIA Isaac Lab;6个用于Project GR00T的新人形机器人学习工作流程,以支持AI机器人大脑开发;以及用于视频处理的新开发人员工具。
观察和理解世界对于机器人技术发展至关重要。这就必须要分解来自摄像头的视频,以便AI模型可以处理这些视频。NVIDIA宣布Cosmos开源标记器现在已经全面上市,为开发者提供了高质量的标记功能,具有极高的压缩率,运行速度比当前的标记器快12倍,与NeMo Curator相结合可以优化和理解输入内容。
这也使开发者能够构建更好的“世界模型”(即世界的AI表示),可以预测机器人执行动作时物体和环境将如何响应。
例如,当机器人夹持器靠近香蕉时会发生什么?成熟的香蕉很软,因此机器人夹持器不能快速或用力靠近,否则会破碎、变形并造成混乱。一张纸呢?必须以不同的方式抓取纸。不管是哪一种情况,都涉及视频数据的高质量编码和解码。
人形机器人初创公司1X Technologies的AI副总裁Eric Jang解释说,Cosmos标记器帮助他的公司实现了高数据压缩,同时仍保持极高的视觉质量。他说:“这使我们能够以更高效的方式训练具有长视界视频生成的世界模型。”
并非所有机器人AI大脑都可以在现实世界中训练,因此NVIDIA发布了Isaac Lab,这是一个基于Omniverse数字孪生模拟平台的开源机器人学习框架。
Omniverse是一个实时3D图形协作和模拟平台,让艺术家、开发者和企业使用完全实现的物理学构建工厂、城市和其他空间的逼真的3D模型和场景,这使其成为模拟虚拟环境以训练机器人的一款强大工具。
开发者可以使用Isaac Lab训练机器人并大规模调整策略,以了解性能和安全性。这个框架适用于任何框架和机器人化身,包括手臂、人形机器人、四足动物和群体。
NVIDIA表示,全球有很多商用机器人制造商和研究团体已经把Isaac Lab纳入他们的工作流程中,包括Agility Robots、Boston Dynamics、1X、Galbot、Fourier、Mentee Robotics和Berkeley Humanoid。
Project GR00T和更多人形机器人工作流程
构建和开发先进的人形机器人是一项艰巨的挑战,因为人类可以轻松完成的行走、感知和采取行动需要大量的硬件工程、AI训练和AI计算,才能让机器人完成看似简单的任务。
Project GR00T是NVIDIA的一项计划,为开发者提供通用人形机器人的AI基础模型、软件库和数据管道,帮助开发者快速制作原型并更快展开构建。
为了帮助开发者构建先进的人形机器人,NVIDIA宣布推出了6个新的Project GR00T工作流程蓝图,帮助他们在机器人中开发新的功能。
GR00T-Gen让开发者可以打造逼真的模拟环境,以训练机器人在其中移动、操纵物体和执行其他任务。它使用大型语言模型和3D生成式AI模型来创建视觉多样化的场景和随机场景,帮助创建强大的训练环境。
GR00T-Mimic让机器人可以向人类老师学习。使用这种工作流程,人类演示者可以远程操作机器人并以与人类相同的方式执行操作,例如在仓库中走动、从货架上拉出箱子并将箱子放在推车上,让机器人在相同的环境中也可以模仿相同的动作。NVIDIA表示,这个方法使用物理世界中有限数量的人类演示,使用扩展现实例如Apple Vision Pro,然后缩放运动数据以帮助机器人自己产生更有机的运动。
GR00T-Dexterity和GR00T-Control为人形机器人提供了一套精细的灵巧操作和广泛的身体控制模型和策略。Dexterity将帮助开发者使用具有执行器和指关节高度灵巧的手的机器人,并处理未抓握、抓握力和其他抓握动作。GR00T-Control将有助于为整个身体进行运动规划,以便行走、移动四肢或执行任务。
GR00T-Mobility为开发者提供了一套模型,帮助人形机器人行走和绕过障碍物,旨在实现基于学习的方法,快速推广到新环境中。
最后,GR00T-Perception增加了高级软件库和人机交互基础模型,帮助机器人“记住”事件的长期历史。为此,NVIDIA为Perception添加了恰如其名的ReMEmbR,为机器人提供个性化人类互动的记忆,并提供背景和空间意识,以提供更好的感知、认知和适应能力。
好文章,需要你的鼓励
最新数据显示,Windows 11市场份额已达50.24%,首次超越Windows 10的46.84%。这一转变主要源于Windows 10即将于2025年10月14日结束支持,企业用户加速迁移。一年前Windows 10份额还高达66.04%,而Windows 11仅为29.75%。企业多采用分批迁移策略,部分选择付费延长支持或转向Windows 365。硬件销售受限,AI PC等高端产品销量平平,市场份额提升更多来自系统升级而非新设备采购。
清华大学团队开发出LangScene-X系统,仅需两张照片就能重建完整的3D语言场景。该系统通过TriMap视频扩散模型生成RGB图像、法线图和语义图,配合语言量化压缩器实现高效特征处理,最终构建可进行自然语言查询的三维空间。实验显示其准确率比现有方法提高10-30%,为VR/AR、机器人导航、智能搜索等应用提供了新的技术路径。
新一代液态基础模型突破传统变换器架构,能耗降低10-20倍,可直接在手机等边缘设备运行。该技术基于线虫大脑结构开发,支持离线运行,无需云服务和数据中心基础设施。在性能基准测试中已超越同等规模的Meta Llama和微软Phi模型,为企业级应用和边缘计算提供低成本、高性能解决方案,在隐私保护、安全性和低延迟方面具有显著优势。
IntelliGen AI推出IntFold可控蛋白质结构预测模型,不仅达到AlphaFold 3同等精度,更具备独特的"可控性"特征。该系统能根据需求定制预测特定蛋白质状态,在药物结合亲和力预测等关键应用中表现突出。通过模块化适配器设计,IntFold可高效适应不同任务而无需重新训练,为精准医学和药物发现开辟了新路径。