谷歌概述了使用视频和大型语言模型来训练机器人的新方法
2024年将是生成式人工智能/大型基础性模型和机器人技术领域的重要一年。各种应用的潜力引起了广泛关注,包括学习和产品设计。Google的DeepMind机器人研究团队是众多团队之一,正在探索该领域的潜力。在今天的博客文章中,该团队重点介绍了正在进行的研究,旨在使机器人更好地理解我们人类对它们的需求。
传统上,机器人专注于在其寿命期间重复执行一个单一任务。单一目的的机器人在这个任务上表现非常出色,但即使对于它们来说,一旦意外引入变化或错误,也会面临困难。
最新宣布的AutoRT旨在利用大型基础模型,以实现多种不同的目标。DeepMind团队给出的一个标准例子是,该系统首先利用视觉语言模型(VLM)来提升情境意识。AutoRT能够管理一支由摄像头装备的机器人队伍,使其能够获取环境布局和其中的物体。
一种大型语言模型同时提出了硬件可以完成的任务,包括其末端执行器。许多人认为,这些大型语言模型是实现更好理解自然语言指令的关键,从而减少对硬编码技能的需求。
在过去的七个月左右,该系统已经进行了相当多的测试。AutoRT能够同时协调多达20个机器人和52种不同的设备。总共,DeepMind已经收集了约77,000次实验,其中包括超过6,000个任务。
团队还推出了RT-Trajectory,它利用视频输入进行机器人学习。许多团队正在探索使用YouTube视频作为一种大规模训练机器人的方法,但RT-Trajectory增加了一个有趣的层次,将机械臂在视频中的动作叠加在一个二维草图上。
团队指出:“这些轨迹以RGB图像的形式提供给模型,为其学习机器人控制策略提供了低级实用的视觉线索。”
DeepMind称,在测试41项任务时,其训练的成功率是其RT-2训练的两倍,分别为63%和29%。
“RT-Trajectory利用了所有机器人数据集中丰富的机器人动作信息,但目前尚未充分利用,”团队指出。“RT-Trajectory不仅代表着在构建能够在新颖情境中高效准确移动的机器人的道路上迈出的另一步,还能从现有数据集中解锁知识。”