观看一个机器人使用 Gemini 导航谷歌 DeepMind 办公室
生成式人工智能在机器人领域已经展现出巨大潜力。其应用包括自然语言交互、机器人学习、无代码编程甚至设计。谷歌的 DeepMind 机器人团队本周展示了这两个领域之间的另一个潜在的优势结合点:导航。
在一篇题为《移动性 VLA:利用长上下文 VLM 和拓扑图进行多模态指令导航》的论文中,该团队展示了如何运用谷歌 Gemini 1.5 Pro 来教导机器人响应指令并在办公室中导航。自然而然,DeepMind 使用了一些自去年谷歌在大规模裁员中关闭该项目以来一直闲置的“每日机器人”。
在与该项目相关的一系列视频中,DeepMind 的员工以智能助手式的“好的,机器人”开场,然后要求系统在约 9000 平方英尺的办公空间内执行不同的任务。
在一个例子中,一位谷歌员工让机器人带他去某个可以画画的地方。“好的,”机器人回应道,它戴着一条活泼的黄色领结,“给我一分钟。正在用 Gemini 思考……”然后,机器人带着这个人走向一面墙大小的白板。在第二段视频中,另一个人告诉机器人按照白板上的指示做。
一张简单的地图向机器人展示了如何到达“蓝色区域”。同样,机器人在思考片刻后,选择了一条漫长的路线,结果到达的是一个机器人测试区。“我已经成功地遵循了白板上的指示,”机器人自信地宣布,这种自信程度是大多数人类只能梦想拥有的。
在这些视频之前,研究团队使用他们所谓的“带演示游览的多模态指令导航(MINT)”让机器人熟悉这个空间。实际上,这意味着带着机器人在办公室里走一圈,同时用语言指出不同的地标。接下来,研究团队利用分层的视觉 - 语言 - 动作(VLA)来“结合环境理解和常识推理能力”。一旦这些过程相结合,机器人就能够响应书面和绘制的命令,以及手势。
谷歌表示,在与员工进行的 50 多次互动中,该机器人的成功率约为 90%。