“双子座的数据分析能力并不如谷歌所宣称的那么好。”
谷歌旗舰生成式人工智能模型Gemini 1.5 Pro和1.5 Flash的卖点之一是它们据说可以处理和分析的数据量。在新闻发布会和演示中,谷歌一再声称这些模型可以依靠它们的“长上下文”来完成以前不可能的任务,比如总结数百页的文件或在电影片段中进行搜索。
两项独立研究调查了谷歌的“双子座”模型及其他模型在处理大量数据(相当于《战争与和平》长度的文本)时的表现。研究发现,Gemini 1.5 Pro和1.5 Flash在回答关于大数据集的问题时存在较大困难;在一系列基于文档的测试中,这些模型仅有40%到50%的准确率。
“尽管像Gemini 1.5 Pro这样的模型在技术上能处理长篇文本,但我们已经看到很多案例表明这些模型实际上并不真正‘理解’内容。”马塞娜·卡尔平斯卡,一位在阿默斯特大学的博士后研究员,也是其中一项研究的合著者,告诉了TechCrunch。
双子座的上下文窗口不足。
模型的上下文,或者说上下文窗口,指的是模型在生成输出(例如额外文本)之前考虑的输入数据(例如文本)。一个简单的问题——“谁赢得了2020年美国总统选举?”——可以作为上下文,同样,电影剧本、节目或音频片段也可以作为上下文。随着上下文窗口的增大,适应其中的文档大小也会增加。
Gemini的最新版本可以处理多达200万个token作为上下文。(“Token”是原始数据的细分部分,例如单词“fantastic”中的音节“fan”、“tas”和“tic”)这相当于大约140万个词、两小时的视频或22小时的音频——是目前所有商业可用模型中最大的上下文容量。
今年早些时候的一次简报中,谷歌展示了几个预先录制的演示,旨在展示Gemini 1.5 Pro的长文本处理能力。其中一个演示让Gemini 1.5 Pro搜索阿波罗11号登月任务的电视转播录音稿(约402页),找出其中包含笑话的引述,然后找到电视转播中类似铅笔素描的场景。
谷歌DeepMind研究副总裁Oriol Vinyals主持了说明会,并将该模型描述为“神奇的”。
“[1.5 Pro]在每一页、每一个单词上执行这些推理任务,”他说道。
这可能有些夸张了。
在前述评估这些能力的研究中,Karpinska与艾伦人工智能研究所和普林斯顿大学的研究人员一起,要求模型评估关于用英语写成的小说书籍的真假陈述。研究人员选择了最近的作品,以防模型依赖预先掌握的信息“作弊”,并且在陈述中散布了对具体细节和情节要点的引用,这些细节和情节要点如果没有完整阅读书籍是无法理解的。
根据类似这样的陈述:“通过运用她的药剂师技能,Nusis能够逆向工程出Rona木箱中发现的试剂钥匙打开的门户类型。”Gemini 1.5 Pro和1.5 Flash——已经消化了相关书籍——需要判断陈述的真假,并解释他们的推理过程。
在对一本大约260,000字(约520页)的书籍进行测试后,研究人员发现,1.5 Pro模型在回答真假陈述时的正确率为46.7%,而Flash模型仅有20%的正确率。这意味着相比谷歌最新的机器学习模型,翻转硬币在回答关于这本书的问题时表现显著更好。综合所有基准测试结果来看,两个模型都未能超过随机猜测的准确率水平。
"我们注意到,与能够通过检索句子级证据解决的主张相比,模型在验证需要考虑书的较大部分甚至整本书的主张时更为困难。” Karpinska说道。“从质量上来看,我们还观察到,模型在验证关于隐含信息的主张时存在困难,这些信息对人类读者来说很明显,但在文本中并未明确表述。”
这两项研究中的第二项是由加州大学圣塔芭芭拉分校的研究人员共同撰写的,测试了Gemini 1.5 Flash(但不是1.5 Pro)对视频进行“推理”的能力,即在视频中搜索并回答有关内容的问题。
这些合著者们创建了一个图像数据集(例如,一个生日蛋糕的照片),并配以关于图像中物体的问题,供模型回答(例如,“这个蛋糕上有什么卡通人物?”)。为了评估模型,他们随机挑选了一张图像,在其前后插入了“干扰”图像,形成类似幻灯片的影片。
Flash的表现并不是很好。在一项测试中,模型需要从25张图像的“幻灯片”中转录六个手写数字,Flash只能正确转录约50%。转录八位数字时准确率下降到约30%。
“在真实的图像问答任务中,我们测试的所有模型似乎都表现得特别困难,” 加利福尼亚大学圣塔芭芭拉分校的博士生、研究的共同作者之一迈克尔·萨克森告诉科技媒体TechCrunch。“这种微小的推理能力——比如识别数字在图中的位置并阅读它——可能是导致模型失败的原因。”
谷歌对Gemini过于夸大其词。
以下两项研究均未经同行评审,也未探索 Gemini 1.5 Pro 和 1.5 Flash 在200万标记上下文环境中的发布情况。(两者均在100万标记上下文环境中进行了测试。)并且,Flash 在性能方面不如 Pro,Google 将其宣传为一种低成本替代品。
然而,这两者都助长了谷歌一直以来在“双子座”项目中过度承诺、交付不足的负面形象。研究人员测试的所有模型,包括OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet,表现都不佳。但谷歌是唯一一家在广告中将上下文窗口的重要性放在首位的模型提供商。
“基于客观技术细节,我们的模型可以处理X个标记”并没有什么问题,”萨克森说道。“但问题是,你能用它做什么有用的事情呢?”
广义上讲,生成式人工智能正受到越来越多的关注,因为企业(和投资者)对该技术的局限性感到越来越失望。
在波士顿咨询集团最近进行的一对调查中,大约一半的受访者——全部为C级高管——表示,他们不认为生成式人工智能能够带来实质性的生产力提升,并且他们担心由生成式人工智能驱动的工具可能会出现错误和数据泄露的问题。据PitchBook最新报道,生成式人工智能在最早阶段的交易活动连续两个季度出现下滑,自2023年第三季度高峰以来下降了76%。
面对那些总结会话的聊天机器人造假关于人们的细节和基本上是剽窃生成器的人工智能搜索平台,消费者正在寻找有前途的差异化产品。谷歌曾在某些时候笨拙地赶上生成式人工智能竞争对手,急于使Gemini的上下文成为其中的一个差异化因素。
但看起来赌注是过早的。
"卡尔平斯卡说:“我们还没有确定一种真正能展示长篇文档上进行‘推理’或‘理解’的方法,基本上每个发布这些模型的团队都在自己拼凑一些临时的评估来支持这些说法。”“因为我们不知道具体实现长上下文处理的方式——公司也不分享这些细节——所以很难判断这些声明有多真实。”
谷歌没有对评论请求作出回应。
Saxon和Karpinska都认为,对于围绕生成式人工智能夸大的声明,解药是更好的基准测试,以及更强调第三方的批评。Saxon指出,长上下文的一种较为常见的测试(在谷歌的营销材料中被大量引用),即“大海捞针”,只是衡量模型从数据集中检索特定信息(如名称和数字)的能力,而不是回答关于这些信息的复杂问题。
"Saxon说:“所有科学家和大多数工程师使用这些模型基本上都同意,我们现有的基准文化已经崩溃,所以公众理解要对那些包含‘跨基准通用智能’等大量数字的庞大报告保持高度怀疑至关重要。”