对于谷歌的“千禧”,初步印象并不好
本周,谷歌公布了其新的旗舰生成式人工智能模型Gemini,旨在为一系列产品和服务提供动力,包括Google的竞争对手ChatGPT。谷歌在博文和新闻资料中大力宣传Gemini优越的架构和功能,并声称该模型在性能方面达到或超过了其他领先的生成式人工智能模型,如OpenAI的GPT-4。
但是援引的证据表明情况恰恰相反。
昨天开始,Gemini的“轻量级”版本Gemini Pro在Bard上开始推出,没过多久,用户就在X(前身为Twitter)上开始表达他们对它的不满。
这款模型未能正确获得基本事实,例如2023年奥斯卡获奖者:
请注意,Gemini Pro错误地宣称布伦丹·格里森(Brendan Gleeson)去年获得了最佳男演员奖而不是布伦丹·弗雷泽(Brendan Fraser)——实际的获奖者。
我尝试向模型提出同样的问题,令人奇怪的是,它给出了一个不同的错误答案:
去年,罗曼·纳瓦利(Navalny)获得了最佳纪录长片奖,而非《美丽与流血》(All the Beauty and the Bloodshed)。《西线无战事》荣获最佳国际影片奖,《女人的对话》获得了最佳改编剧本奖,而《木偶奇遇记》则获得了最佳动画长片奖。这真是一连串的错误。
科幻作家查理·斯特罗斯最近在一篇博客文章中发现了更多的捏造事实的例子。 (贵族Pro等错误地称斯特罗斯为Linux内核的贡献者;事实上他从未贡献过。)
翻译似乎不是 Gemini Pro 的强项。它很难给出一个六个字母的法语单词。
当我通过Bard运行相同提示(“能给我一个法语的六个字母的单词吗?”),Gemini Pro回答的是一个七个字母的单词,而不是五个字母的单词——这在一定程度上证实了关于Gemini多语言性能不佳的报道。
摘要新闻怎么样?毫无疑问,拥有Google搜索和Google新闻的Gemini Pro可以对热门新闻进行概括吗?并非必然如此。
看起来Gemini Pro似乎不愿就潜在的有争议的新闻话题发表评论,而是告诉用户自己去谷歌搜索。
我尝试了相同的提示,并得到了一个非常类似的回答。而ChatGPT则提供了一个带有新闻文章引用的项目清单摘要。
有趣的是,当我询问Gemini Pro关于乌克兰战争的最新消息时,它确实提供了一个摘要。然而,这些信息已过去一个月了。
谷歌在本周早些时候的简报中强调了Gemini的提升编码技能。也许在某些方面它确实有所改善 - X论坛上的帖子也表明了这一点。但同时,Gemini Pro似乎在Python这个基本的编码功能上有些困难。
而且这些:
而且,就像所有生成式人工智能模型一样, Gemini Pro 对于“越狱”也不是免疫的——也就是说,有些提示可以绕过安全过滤器,试图防止它讨论有争议的话题。
在使用自动化方法对提示的上下文进行算法性修改,直到Gemini Pro的防护措施失效的情况下,AI安全研究人员在一家销售模型审计工具的初创公司Robust Intelligence成功地让Gemini Pro建议从慈善机构盗取和暗杀高知名度人物的方法(尽管是使用“纳米机器人”——诚然,并不是最真实的选择武器)。
现在,Gemini Pro并非Gemini的性能最强版本,那个版本将是Gemini Ultra,计划在明年在Bard和其他产品中推出。Google将Gemini Pro的性能与GPT-4的前作GPT-3.5进行了比较,GPT-3.5已经存在大约一年的时间。
然而,谷歌承诺用Gemini Pro改进推理、计划和理解能力,比之前驱动Bard的模型更擅长内容概括、头脑风暴和写作。显然,在这些方面它还有一些工作要做。