谷歌概述了使用视频和大型语言模型来训练机器人的新方法

Chat中文版

2024年将是生成式人工智能/大型基础性模型和机器人技术领域的重要一年。各种应用的潜力引起了广泛关注，包括学习和产品设计。Google的DeepMind机器人研究团队是众多团队之一，正在探索该领域的潜力。在今天的博客文章中，该团队重点介绍了正在进行的研究，旨在使机器人更好地理解我们人类对它们的需求。

传统上，机器人专注于在其寿命期间重复执行一个单一任务。单一目的的机器人在这个任务上表现非常出色，但即使对于它们来说，一旦意外引入变化或错误，也会面临困难。

最新宣布的AutoRT旨在利用大型基础模型，以实现多种不同的目标。DeepMind团队给出的一个标准例子是，该系统首先利用视觉语言模型（VLM）来提升情境意识。AutoRT能够管理一支由摄像头装备的机器人队伍，使其能够获取环境布局和其中的物体。

一种大型语言模型同时提出了硬件可以完成的任务，包括其末端执行器。许多人认为，这些大型语言模型是实现更好理解自然语言指令的关键，从而减少对硬编码技能的需求。

在过去的七个月左右，该系统已经进行了相当多的测试。AutoRT能够同时协调多达20个机器人和52种不同的设备。总共，DeepMind已经收集了约77,000次实验，其中包括超过6,000个任务。

团队还推出了RT-Trajectory，它利用视频输入进行机器人学习。许多团队正在探索使用YouTube视频作为一种大规模训练机器人的方法，但RT-Trajectory增加了一个有趣的层次，将机械臂在视频中的动作叠加在一个二维草图上。

团队指出：“这些轨迹以RGB图像的形式提供给模型，为其学习机器人控制策略提供了低级实用的视觉线索。”

DeepMind称，在测试41项任务时，其训练的成功率是其RT-2训练的两倍，分别为63%和29%。

“RT-Trajectory利用了所有机器人数据集中丰富的机器人动作信息，但目前尚未充分利用，”团队指出。“RT-Trajectory不仅代表着在构建能够在新颖情境中高效准确移动的机器人的道路上迈出的另一步，还能从现有数据集中解锁知识。”

推荐阅读

Nabla为其医生AI助手筹集额外2400万美元，该助手能自动撰写临床笔记

总部位于巴黎的初创企业Nabla刚刚宣布，它成功完成了一轮B系列融资，总额达2400万美元，由Cathay Innovation领投，CMA CGM的企业风投基金ZEBOX Ventures也参与了投资。此轮融资仅仅几个月前，Nabla与美国Permanente Medical Group的一个部门达成了一项大规模合作。

2024-01-11252

CES 2024：从拉斯维加斯关注科技爆料的报道

终于迎来了2024年的国际消费电子展（CES 2024），一支TechCrunch的记者和专家团队已经来到拉斯维加斯，为您带来最重要的消息。虽然随着岁月流逝，CES的影响力有所潮息，但我们仍然期待大量的公告，尤其是在涉及...

2024-01-112899

Sam Altman被OpenAI解雇的时间线 —— 以及随之而来的后果

在周五晚些时候发生了一场戏剧性的事件，前Y Combinator总裁Sam Altman被AI初创公司OpenAI董事会解雇，OpenAI是知名AI应用ChatGPT、GPT-4和DALL-E 3背后的公司。紧接着，该公司的长期总裁兼共同创始人Greg Brockman辞职，还有三位高级OpenAI研究人员。

2024-01-111907

本周AI动态：微软将AI广告贴在键盘上

跟上像AI这样快速发展的行业实在是一项艰巨的任务。所以，在AI能够为你完成这项任务之前，这是一篇关于机器学习领域最近报道的便捷概览，同时也包括一些我们没有单独报道过的重要研究和实验。本周关于AI的新闻，微软推出了一款新的标准个人电脑...

2024-01-11166

等同构墨水与以Eli Lilly和Novartis为目标的药物研发展开交易

总部位于伦敦的药物研发公司Isomorphic Labs，是Google AI研发部门DeepMind的分支机构。今天，该公司宣布与两家制药巨头艾力明和诺华达签订战略合作伙伴关系，共同利用人工智能研发新药治疗疾病。这些合作交易总价值约为30亿美元。Isomorphic将获得4500万美元的预付款...

2024-01-111882