从医疗、教育、物流、服务到无人机和工业机器人,机器人的发展蓬勃发展,比如服务机器人、清洁机器人、消杀机器人、零接触配送机器人等。商场、办公楼宇、园区、矿区,机器人赋能各个行业的丰富场景。
作为当下人工智能大范畴最火热的行业分支之一,加之疫情的影响,机器人加速驶入社会、家庭和工作,应用范围进一步扩大。
NVIDIA机器人行业专家李雨倩
NVIDIA机器人行业专家李雨倩接受记者采访时表示,机器人是研究型与商业落地多头并进发展的学科,有些领域会商业落地较早,例如服务机器人、扫地机器人、无人机、AGV等。“机器人最根本的逻辑是降本增效,为我们的工作和生活提供更好的便利性。”
机器人的广泛应用可以降低疫情传播风险,很多场所需要识别你有没有戴口罩或者进行消毒工作,这些工作更适合于机器人。
同时,在某些工作场景,机器人是很好的劳动力,比如自主卡车、服务机器人、自动化农机等,实现7×24小时工作。
我们现在在商场也经常看到有机器人在进行导引,为消费者提供全面的服务,一方面增强了体验的科技感,另一方面解放了人力。
李雨倩说,人工智能近十几年发展非常快速,机器人的发展离不开人工智能,所以AI化或者智能化是机器人发展的趋势,比如人机交互、情感识别等。“随着整个计算平台以及传感器、软件算法不断迭代,未来机器人一定越来越智能化。”
硬件与软件赋能机器人
作为重要的机器人细分领域,工业机器人、无人飞行器(无人机)、服务机器人、巡检机器人等都是NVIDIA广泛涉足的领域,NVIDIA从硬件和软件两个方面持续投入,推动机器人的发展。
李雨倩表示,机器人的计算平台需要接受多传感器融合,并具备AI属性可以运行机器人算法。这个计算平台功耗低,体积小,算力高,才能符合现在机器人不断迭代的发展趋势。
在硬件方面,NVIDIA包含两个部分,一个是机器人本体的载体——嵌入式计算平台Jetson。NVIDIA Jetson是面向边缘计算的人工智能平台适用于自主机器和其他嵌入式应用程序。该平台包括Jetson模组(外形小巧的高性能计算机)、用于加速软件的NVIDIA JetPack SDK,以及包含传感器、SDK、服务和产品的生态系统,从而加快开发速度。
其中,NVIDIA Jetson模组系列可支持各种边缘AI和机器人应用,包括在最小的Jetson外形尺寸下提供每秒40万亿次(TOPS)AI性能的Jetson Orin Nano,以及为高级自主机器提供每秒275万亿次(TOPS)AI性能的AGX Orin。目前,京东,美团,阿里等无人配送小车都在采用Jetson方案。
另一个是面向机器人仿真和训练的硬件平台NVIDIA Isaac Sim,这是数字孪生级别专门为AI机器人提供仿真的平台。借助Isaac Sim,机器人专家将能够从物理属性准确的传感器仿真中生成大型数据集,以便在其机器人上训练基于AI的感知模型。这些在仿真中生成的合成数据可提高模型性能,并可提供在现实世界中通常无法收集的训练数据。
此外,NVIDIA还提供用于计算机视觉的 DeepStream、用于自然语言理解的 Riva、使用预训练模型加速模型开发的TAO Toolkit和Metropolis,一个应用程序框架、一组开发人员工具和合作伙伴生态系统,将视觉数据和人工智能结合在一起。
对于端侧机器人开发,NVIDIA提供了基于硬件加速的开源机器人算法包Isaac ROS GEMs,让开发者快速搭建机器人。
生态的完善是机器人发展的关键,NVIDIA与产业链上下游积极协同,进行调研、应用、场景分析,让硬件和软件更好用。比如机器人的传感器非常复杂,包括激光雷达、深度相机、单目相机等,NVIDIA优化适配各种传感器。此外,借助软件解决方案提供商,NVIDIA帮助客户打通应用的最后一公里。
开发者是机器人发展的关键,NVIDIA秉持开源开放的原则,给开发者提供文档、软件等资料,并提供论坛社区支持和活动等。
谈及今年的工作重点,李雨倩表示,与客户联合创新,持续迭代软硬件产品,加强市场宣传,让更多用户了解NVIDIA的产品。今年,NVIDIA会与更多高校展开合作,将NVIDIA软硬件带到教学平台,培养更多人才。
“我们的布局是囊括硬件和软件,提供全栈解决方案,让用户从仿真、训练、开发、部署实现全栈机器人开发流程。我们提供更多AI架构和AI模型,并提升硬件的算力水平,打造更多AI属性的机器人。”李雨倩说。
展望未来,机器人市场空间无限,特别是在中国,劳动密集型行业自动化需求强烈,机器人在其中有着广阔的应用空间,而且中国市场充满创新活力。NVIDIA会持续加大人力和资源投入中国市场。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。