观看一个机器人使用 Gemini 导航谷歌 DeepMind 办公室

AI7号2024-07-11482

Chat中文镜像

生成式人工智能在机器人领域已经展现出巨大潜力。其应用包括自然语言交互、机器人学习、无代码编程甚至设计。谷歌的 DeepMind 机器人团队本周展示了这两个领域之间的另一个潜在的优势结合点:导航。

在一篇题为《移动性 VLA:利用长上下文 VLM 和拓扑图进行多模态指令导航》的论文中,该团队展示了如何运用谷歌 Gemini 1.5 Pro 来教导机器人响应指令并在办公室中导航。自然而然,DeepMind 使用了一些自去年谷歌在大规模裁员中关闭该项目以来一直闲置的“每日机器人”。

在与该项目相关的一系列视频中,DeepMind 的员工以智能助手式的“好的,机器人”开场,然后要求系统在约 9000 平方英尺的办公空间内执行不同的任务。

在一个例子中,一位谷歌员工让机器人带他去某个可以画画的地方。“好的,”机器人回应道,它戴着一条活泼的黄色领结,“给我一分钟。正在用 Gemini 思考……”然后,机器人带着这个人走向一面墙大小的白板。在第二段视频中,另一个人告诉机器人按照白板上的指示做。

一张简单的地图向机器人展示了如何到达“蓝色区域”。同样,机器人在思考片刻后,选择了一条漫长的路线,结果到达的是一个机器人测试区。“我已经成功地遵循了白板上的指示,”机器人自信地宣布,这种自信程度是大多数人类只能梦想拥有的。

在这些视频之前,研究团队使用他们所谓的“带演示游览的多模态指令导航(MINT)”让机器人熟悉这个空间。实际上,这意味着带着机器人在办公室里走一圈,同时用语言指出不同的地标。接下来,研究团队利用分层的视觉 - 语言 - 动作(VLA)来“结合环境理解和常识推理能力”。一旦这些过程相结合,机器人就能够响应书面和绘制的命令,以及手势。

谷歌表示,在与员工进行的 50 多次互动中,该机器人的成功率约为 90%。

推荐阅读

国防人工智能初创公司 Helsing 获得 4.87 亿美元 C 轮融资,计划向波罗的海地区扩张以对抗俄罗斯威胁

2024-07-111563
Chat中文版

英特尔资本支持一家人工智能建筑初创公司,这可能会提升英特尔自身的制造前景。

2024-07-111141
Chat中文版

Medal 在打造适用于桌面端的情境式人工智能助手时筹集了 1300 万美元。

2024-07-11659
Chat中文版

AWS App Studio承诺可以从书面提示中生成企业应用程序

2024-07-102449
Chat中文版

谷歌将新的Gemini功能和WearOS 5带到三星设备

2024-07-102298
Chat中文版