TechCrunch 一分钟:一个谷歌机器人展示了 Gemini 能做的事情

AI7号2024-07-15317

谷歌在一个机器人的帮助下,找到了一种展示其 Gemini AI 模型能做什么的新方法。

这是来自谷歌“全民机器人”部门的一个机器人,该部门去年已被关闭。但显然这些机器人仍在,所以谷歌给其中一个戴上了黄色领结,然后使用 Gemini 来教这个机器人如何响应指令以及在 DeepMind 办公区导航。

为了实现这一目标,谷歌正在使用视觉语言模型(VLMs),这些模型在图像、视频以及文本上进行训练,使它们能够回答问题并执行需要感知的任务。

例如,在一个视频中,一位谷歌员工让机器人带他去一个可以画画的地方。机器人说需要一分钟思考,然后带这位员工去了一块白板处。在另一个视频中,机器人被告知要遵循白板上的指示,白板上的一张地图显示了前往所谓“蓝色区域”的路线。机器人按照指示来到了一个机器人测试区,然后宣布:“我已经成功遵循了白板上的指示。”

点击播放以查看机器人的实际操作,然后在评论中告诉我们您的想法!