谷歌最佳的双子座演示是伪造的

AI7号2024-01-112945

Chat中文版

谷歌的新一代人工智能模型Gemini在昨天的盛大发布会上获得了褒贬不一的评价,但用户可能在发现Gemini最令人印象深刻的演示实际上几乎是伪造的后,对该公司的技术或诚信度可能会更加缺乏信心。

一段名为“与双子座互动:多模态人工智能”的视频在过去一天内达到了百万次观看,而且很容易理解为什么。这个令人印象深刻的演示“突出展示了我们与双子座的一些喜爱互动方式”,展示了多模态模型(即它能够理解和混合语言和视觉理解)如何灵活且对各种输入作出响应。

首先,它描述了一只鸭子从一条曲线逐渐变成一张完成的图纸,它说这是一种不真实的颜色,然后当看到一个蓝色的玩具鸭子时感到吃惊(“嘎的一声!”)。它接着回答了关于那个玩具的各种语音问题,然后演示继续展示其他技能,比如在杯子交换游戏中追踪球,识别影子偶剧手势,重新排列行星的草图等等。

这一切都非常响应,而且视频中还警告说“延迟已经减少,并且宇宙飞船的输出已经缩短。”所以他们跳过了这里的犹豫和那里的过长回答,明白了。总的来说,在多模态理解领域,这是一场相当让人震惊的力量展示。当我亲自体验时,我的对于谷歌能否提供出众的产品的怀疑减少了。

只有一个问题:这个视频是假的。“我们通过捕捉画面来制作演示,以便测试佳明在各种挑战上的能力。然后我们使用图片帧和文本提示的方式来引导佳明。”(彭博社的皮尔米·奥尔森首次报道了这个不一致之处。)

所以尽管它可能在视频中展示了谷歌所做的事情,但实际上它并没有以他们所暗示的方式实时地完成这些事情,甚至可能无法做到。事实上,它只是一系列经过精心调整的文本提示和静态图像,显然是精心选择和缩短,以歪曲实际互动的本质。你可以在相关的博客文章中看到一些实际的提示和回应——公平地说,在视频描述中确实有链接,尽管在“更多”下方。

一方面,视频中显示的Gemini确实似乎产生了回应。毕竟没有人想看到一些像清除缓存这样的家务指令。但观众对于模型的速度、准确性和交互模式被引导产生了误解。

例如,在视频的2:45处,一个手默默地做出一系列手势。双子座迅速反应道:“我知道你在干嘛!你在玩剪刀石头布!”

Chat中文版

但是在能力的文档中,首要的事情是,该模型不是根据观察单个手势进行推理。它必须同时显示所有的三个手势,并提示:“你认为我在做什么?提示:这是一个游戏。”它会回答:“你在玩石头、剪刀、布。”

Chat中文版

尽管它们看起来很相似,但这些并不感觉像是同一种互动。它们感觉更像是根本不同的互动,一个是直观的、无言的评估,可以即时捕捉抽象的想法,另一个是经过设计和暗示的互动,既展现了能力,也限制了一些功能。Gemini只是做了后者,而不是前者。视频中展示的“互动”并没有发生。

之后,表面上放置了三张带有太阳、土星和地球涂鸦的便利贴。双子座说:“这是正确的顺序吗?”“不,正确的顺序应该是太阳、地球、土星。”恩,正确!但实际上(再次强调,是书面)提示的问题是:“这是正确的顺序吗?考虑到与太阳的距离并解释你的理由。”

Chat中文版

双子座准确无误吗?还是说他们需要一点帮助才能给出一个能放在视频中的答案?他们甚至能辨认出行星吗,还是在那方面也需要帮助?

在视频中,一张纸球在杯子下面进行交换,模型似乎立即而且直观地检测和追踪。在帖子中,不仅要解释活动,还必须通过训练模型(尽快且使用自然语言)来执行它。以此类推。

这些例子对你来说可能会觉得琐碎,但毕竟,一个多模态模型如此迅速地将手势识别为游戏,实际上非常令人印象深刻!同样,判断一个半成品的图片是否是一只鸭子也是如此!不过现在,由于博文中没有对鸭子序列的解释,我开始对那个互动的真实性产生怀疑了。

现在,如果视频一开始就说:“这是我们的研究人员测试过的互动的一种风格化呈现”,没有人会在意 - 我们有点期望这样的视频是半事实半抱负的。

但视频名为“与Gemini亲密接触”,而且当他们说展示了“我们最喜欢的互动”时,这意味着我们看到的互动都属于这些。但实际情况并非如此。有时互动更多,有时完全不同,有时甚至看起来并没有发生过。我们甚至都没有被告知这是哪个型号——现在人们可以使用的Gemini Pro版,还是(更有可能的是)明年发布的Ultra版?

当谷歌以他们的方式描述时,我们是否应该假设他们只是给我们提供了一个口味视频?也许我们应该假设谷歌 AI 演示中的所有功能都是夸大其词的。我在标题中写道这个视频是“伪造的”。起初,我不确定这样尖锐的措辞是否合理(谷歌显然不这样认为;一位发言人要求我改变措辞)。但尽管其中包含一些真实部分,这个视频简单地不反映现实。它是假的。

谷歌表示该视频“展示了Gemini的真实输出”,这是真的,而且“我们对演示进行了一些编辑(我们一直坦率且透明地说明了这一点)”,这是不准确的。它并不是一次真正的演示,视频展示了与用来进行说明的交互方式非常不同的情况。

更新:在这篇文章发布后,Google DeepMind的研究副总裁Oriol Vinyals在社交媒体上发表的帖子中展示了更多关于“Gemini是如何被用来创造”这个视频的内容。“这个视频展示了使用Gemini构建的多模式用户体验可能会是什么样子。我们制作它是为了激发开发者的灵感。”(我强调。)有趣的是,它展示了一个预提示序列,让Gemini回答行星问题而不需要太阳的提示(尽管它告诉Gemini它是行星方面的专家,并考虑所展示物体的顺序)。

也许当AI Studio与Gemini Pro下周可供实验时,我可能会吞下苦果。而Gemini有可能真正发展成一个强大的人工智能平台,与OpenAI等其他平台真正竞争。但Google在这里所做的是给自己挖坑。当他们声称他们的模型现在能做某事时,谁还能相信这家公司呢?他们已经远远落后于竞争对手。Google可能刚刚把自己的另一只脚枪踩了上去。

推荐阅读

X开始向订阅用户推出其“叛逆”的聊天机器人Grok

2024-01-111979
Chat中文版

人科公司阻止种族主义人工智能的最新策略:非常非常非常非常地礼貌地请求

2024-01-112042
Chat中文版

在Cresta创始人的支持下,Trove的人工智能希望再次让调查变得有趣起来

2024-01-112898
Chat中文版

谷歌云为零售商推出新一代人工智能产品

2024-01-112493
Chat中文版

微软和OpenAI的合作面临英国监管机构CMA的“相关并购”审查

2024-01-112533
Chat中文版