Nvidia近日详细介绍了Eureka,一种可以自动训练机器人执行新任务的AI系统。
在一次内部评估中,Nvidia使用Eureka教10个模拟机器人29种不同的动作。工程师通常会在构建机器之前创建机器模拟版本以支持开发工作Eureka教Nvidia的虚拟机器人打开抽屉、表演转笔技巧以及执行其他相对复杂的任务。
很多机器人都是由强化学习模型的神经网络提供动力的。强化学习模型通过反复试验来学习执行任务:它们在模拟环境中多次重复该任务,直到弄清楚如何正确执行该任务。模拟学习环境中,包括一个充当神经网络测试台的虚拟机器人。
在此类项目中,AI训练过程由是一段称为奖励函数的代码进行监督的。当机器人的强化学习模型在学习过程中得出正确的结论时,该函数会“奖励”它,并在错误时对其进行惩罚,通过这种方式,强化学习模型将被引导找到操作机器人的正确方法。
为强化学习模型编写奖励函数历来是一项耗时且技术含量高的任务。据Nvidia称,这次推出的Eureka系统可以实现这个过程的自动化,系统会根据自然语言指令生成奖励函数,例如“教机械臂下棋”等。
Eureka在幕后使用OpenAI GPT-4将用户提示转化为奖励函数。除了提示本身之外,系统还接受所谓的环境代码作为输入,这是一种描述模拟机器人通过训练以执行新任务的代码。
据Nvidia称,Eureka 不仅会生成奖励函数,还会随着时间的推移对其进行不断改进。该系统创建了多个版本的奖励函数,并通过将其应用到模拟机器人来评估工作效果,然后会分析评估结果以找出改进的机会。
Eureka系统还可以在此过程中考虑开发人员的反馈,特别是允许工程师就如何增强机器人的奖励功能提供建议,这些建议已经纳入到代码优化过程中。
Nvidia表示,在测试的80%多的机器人动作中,Eureka奖励函数的表现优于人类编写的代码。结果,作为该项目一部分开发的10个模拟机器人更有效地执行了分配的任务,Nvidia的研究人员记录到机器人性能提高了52%。
参与Eureka开发的Nvidia人工智能研究高级总监Anima Anandkumar表示:“强化学习在过去十年中取得了令人印象深刻的胜利,但仍然存在许多挑战,例如奖励设计,这仍然是一个试错的过程。Eureka是开发新算法的第一步,这种算法集成了生成式学习和强化学习方法来解决那些困难的任务。”
Nvidia已经在GitHub上发布了Eureka的关键组件以及描述其工作原理的学术论文。工程师可以使用Nvidia的Isaac Gym程序运行该软件,该软件是一种专门为支持AI驱动型机器人开发而设计的模拟工具。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。