观看一个机器人使用 Gemini 导航谷歌 DeepMind 办公室

Chat中文镜像

生成式人工智能在机器人领域已经展现出巨大潜力。其应用包括自然语言交互、机器人学习、无代码编程甚至设计。谷歌的 DeepMind 机器人团队本周展示了这两个领域之间的另一个潜在的优势结合点：导航。

在一篇题为《移动性 VLA：利用长上下文 VLM 和拓扑图进行多模态指令导航》的论文中，该团队展示了如何运用谷歌 Gemini 1.5 Pro 来教导机器人响应指令并在办公室中导航。自然而然，DeepMind 使用了一些自去年谷歌在大规模裁员中关闭该项目以来一直闲置的“每日机器人”。

在与该项目相关的一系列视频中，DeepMind 的员工以智能助手式的“好的，机器人”开场，然后要求系统在约 9000 平方英尺的办公空间内执行不同的任务。

在一个例子中，一位谷歌员工让机器人带他去某个可以画画的地方。“好的，”机器人回应道，它戴着一条活泼的黄色领结，“给我一分钟。正在用 Gemini 思考……”然后，机器人带着这个人走向一面墙大小的白板。在第二段视频中，另一个人告诉机器人按照白板上的指示做。

一张简单的地图向机器人展示了如何到达“蓝色区域”。同样，机器人在思考片刻后，选择了一条漫长的路线，结果到达的是一个机器人测试区。“我已经成功地遵循了白板上的指示，”机器人自信地宣布，这种自信程度是大多数人类只能梦想拥有的。

在这些视频之前，研究团队使用他们所谓的“带演示游览的多模态指令导航（MINT）”让机器人熟悉这个空间。实际上，这意味着带着机器人在办公室里走一圈，同时用语言指出不同的地标。接下来，研究团队利用分层的视觉 - 语言 - 动作（VLA）来“结合环境理解和常识推理能力”。一旦这些过程相结合，机器人就能够响应书面和绘制的命令，以及手势。

谷歌表示，在与员工进行的 50 多次互动中，该机器人的成功率约为 90%。

推荐阅读

国防人工智能初创公司 Helsing 获得 4.87 亿美元 C 轮融资，计划向波罗的海地区扩张以对抗俄罗斯威胁

赫尔辛已经在爱沙尼亚创建了一个新的实体，并计划在未来三年内为波罗的海的防御项目投入 7000 万欧元。

2024-07-111563