谷歌的Gemini并不是我们预期的生成式人工智能模型

AI7号2024-01-112791

Chat中文版

谷歌旨在推出的下一代生成型人工智能模型Gemini已经来了。不过还算是部分完成。

本周即将推出的 Gemini Pro 版本,实质上是下一年即将到来的 Gemini 模型的一个轻量级衍生版本,该版本更加强大且功能更全面。但是我在说得太快了。

昨天在一个虚拟的新闻发布会上,Google DeepMind团队的成员(在Google Research的支持下)对Gemini(实质上是“Gemini 1.0”)及其能力进行了高层次的概述。

事实证明,双子座实际上是一个AI模型家族,而不只是一个模型。它有三种不同的版本:

  • 双子座Ultra,双子座系列的旗舰型号。
  • Gemini Pro,一个“轻便版” Gemini 模型。
  • 双子座纳米版是为移动设备优化的,比如Pixel 8 Pro*。

为了让事情更加令人困惑,Gemini Nano有两个型号,Nano-1(18亿参数)和Nano-2(32.5亿参数)- 分别针对低内存和高内存设备。

Chat中文版

目前,试用谷歌ChatGPT竞争对手Bard中的Gemini Pro最简单之处是在美国的英文版(仅限文本,不包括图片)。谷歌助手和Bard的总经理Sissie Hsiao在简报会上表示,经过优化的Gemini Pro在推动Bard时提供了更强的推理、规划和理解能力,相较于之前的模型有所改进。

我需要指出的是,我们无法独立确认其中任何一项改进。谷歌在发布之前不允许记者测试这些模型,实际上,在简报过程中也没有进行实时演示。

Gemini Pro将于12月13日面向企业客户推出,采用Google全新的托管机器学习平台——Vertex AI,并随后进入Google的生成AI Studio开发套件。(一些眼尖的用户已经在Vertex AI的模型库中发现了Gemini模型的版本。)此外,Gemini将在接下来的几个月内登陆Google产品,如Duet AI、Chrome和广告,以及作为Google搜索生成体验的一部分出现在搜索中。

Gemini Nano即将通过谷歌最近发布的AI Core应用程序,在Pixel 8 Pro上进行预览发布,目前仅限于安卓14;对于有兴趣将该模型整合到应用程序中的安卓开发者们,可以立即注册进行抢先体验。在未来,Gemini Nano将首先在Pixel 8 Pro上运行,并在其他安卓设备上推出,支持谷歌在十月份Pixel 8 Pro发布会上预览过的功能,如“录音机”应用程序中的摘要和支持的消息应用程序的智能回复(首先包括WhatsApp)。

生来具有多模式特性

Gemini Pro——至少是驱动Bard的经过优化的版本——并不值得大书特书。

Hsiao表示,Gemini Pro在内容概括、头脑风暴和写作等任务上比OpenAI的GPT-3.5更有能力,并在六个基准测试中表现出色,其中包括一个(GSM8K),用于衡量小学数学推理能力。但是,GPT-3.5已经超过一年的历史,对于目前来说,并不是一个具有挑战性的里程碑。

那么双子座超级版呢?肯定更加令人印象深刻吧?

有点儿。

与Gemini Pro一样,Gemini Ultra也被训练成“本地多模态”的人工智能。换句话说,它在大量的代码库、不同语言的文本、音频、图像和视频上经过了预训练和微调。DeepMind的产品副总裁Eli Collins声称,Gemini Ultra能够理解文本、图像、音频和代码中的“微妙”信息,并回答与“复杂”主题,特别是数学和物理相关的问题。

Chat中文版

在这方面,Gemini Ultra在几个方面比竞争对手OpenAI的多模态模型GPT-4 with Vision表现得更好,后者只能理解两种模态的上下文:文字和图像。除了艺术和照片外,Gemini Ultra还可以转录语音并回答有关音频和视频的问题(例如,“这个片段中发生了什么?”)。

“在创建多模态模型的标准方法中,通常需要为不同的形式训练分开的组件,”柯林斯在简报中表示。“这些模型在执行描述图像等某些任务方面表现得相当出色,但在更复杂的概念和推理任务上则遇到了困难。因此,我们设计了Gemini以支持本地多模态。”

很抱歉,我无法提供有关双子座(Gemini)的训练数据集更多的信息——我自己也很好奇。但是,谷歌一再拒绝回答记者关于它如何收集双子座训练数据、训练数据来源以及是否有来自第三方的许可的问题。

柯林斯确实透露称,数据的至少一部分来自公共网络资源,并且谷歌对其质量和“不恰当”的内容进行了“筛选”。但他未解决一个关键问题:无意间为宝石(Gemini)的训练数据做出贡献的创作者是否可以选择退出或期望/要求赔偿。

谷歌并非第一个保守其训练数据的公司。这些数据不仅具有竞争优势,还可能引起与公平使用相关的诉讼。微软、GitHub、OpenAI和稳定AI等生成式人工智能供应商也正面临诉讼,指控他们在训练人工智能系统时使用了受版权保护的内容,包括艺术作品和电子书,但未给予创作者应有的认可或报酬。

Chat中文版

OpenAI最近表示,类似其他生成式人工智能供应商,它将允许艺术家选择不使用其未来的艺术生成模型的训练数据集。谷歌并没有为艺术生成模型或其他模型提供类似的选择 - 而且似乎这一政策在Gemini项目中也不会改变。

谷歌使用其自家的AI芯片,张量处理单元(TPU)——具体是TPU v4和v5e(未来还将使用v5p)来训练Gemini,并且目前在TPU和GPU的组合上运行Gemini模型。(根据今天发布的技术白皮书,预计Gemini Pro花费了"几周"的时间进行训练,而Gemini Ultra所需的时间可能更长。)尽管科林斯声称Gemini是谷歌迄今为止“最高效”的大型生成式AI模型,并且比其前身多模态模型“成本显著”降低,但他不愿透露用于训练的芯片数量、花费以及训练的环境影响。

一篇文章估计,训练一个规模与GPT-4相当的模型会产生超过300公吨的二氧化碳排放量,比一个美国人一年产生的排放量(约5吨二氧化碳)要多得多。人们希望谷歌采取措施来减轻这种影响,但由于该公司选择未在这位记者参加的简报会上讨论这个问题,至少目前还无从得知。

一个更好的模型——微不足道地

在预先录制的演示中,谷歌展示了Gemini如何帮助物理作业,可以逐步解决工作表上的问题,并指出已填写答案中可能的错误。

在另一个演示中(同样是预先录制的),Gemini展示了识别与特定问题集相关的科学论文,从这些论文中提取信息,并通过生成必要的公式来“更新”一张图表,以便使用更近期的数据重新创建该图表。

“你可以把这里的工作看作是 [DeepMind] 在‘思维链引导’方面的延伸,也就是说,通过进一步的指令调整,你可以使模型遵循[更复杂]的指令,”柯林斯说。“如果你想象一下物理作业的例子,你可以给模型一张图片,同时给出要遵循的指令——例如,找出物理作业中的数学错误。因此,该模型能够处理更复杂的提示。”

在简报中,柯林斯多次吹捧了 Gemini Ultra 的基准优势,并声称该模型在“32个广泛应用于大型语言模型研究与开发的学术基准中的30个”上超过了目前的最先进结果。但如果深入研究这些结果,很快就会发现 Gemini Ultra 在许多基准上的得分只比 GPT-4 和带有视觉功能的 GPT-4 稍微好一点。

Chat中文版

例如,在GSM8K上,与GPT-4相比,Gemini Ultra在数学问题上的正确回答率为94.4%,而GPT-4只有92%。在阅读理解测试DROP中,Gemini Ultra仅以82.4%略胜过GPT-4的80.9%。在“神经”图像理解测试VQAv2中,Gemini与GPT-4 Vision相比,仅高出0.6个百分点。而在Big-Bench难推理套件中,Gemini Ultra仅以0.5个百分点超过GPT-4。

Collins指出,Gemini Ultra在最新的多模态推理基准MMMU上取得了59.4%的“最先进”得分,超过了具有视觉功能的GPT-4。但是在常识推理的测试集HellaSwag中,Gemini Ultra的得分实际上比GPT-4要低得多,仅为87.8%;而GPT-4的得分为95.3%。

当记者询问Gemini Ultra是否像其他生成式AI模型一样会出现幻觉(即自信地编造事实)时,柯林斯表示这“并不是一个解决的研究问题”。对此你可以如何看待。

可以合理推测,偏见和有害性在Gemini Ultra中也有可能存在,这是因为即使是当今最优秀的生成AI模型在某些方式上的回应也可能带有问题和有害性。像其他生成AI模型一样,Gemini Ultra几乎肯定也是以英语为中心的。Collins表示,虽然Gemini Ultra可以在大约100种语言之间进行翻译,但没有专门进行针对全球南方国家的本土化模型的工作。

Chat中文版

另一个关键限制是,尽管Gemini Ultra架构支持图像生成(理论上Gemini Pro也支持),但这个功能在产品化版本的模型发布时不会包含。这可能是因为该机制比如ChatGPT生成图像的方式稍微更复杂;与像在ChatGPT的情况下将提示输入到图像生成器中(就像DALL-E 3那样),Gemini会直接“原生”输出图像,而不需要中间步骤。

柯林斯并未提供图像生成可能到达的时间表,只是保证工作是“正在进行中”。

匆忙离开了大门

从本周的双子座“发射”看,人们的印象是这是一个匆忙完成的工作。

在Google的年度I/O开发者大会上,Google承诺Gemini将提供“在先前模型中未见到的令人印象深刻的多模式能力”和“工具和API集成的[效率]”。在六月份接受Wired采访时,DeepMind的负责人兼联合创始人Demis Hassabis将Gemini描述为在文本生成AI领域引入了一些新颖的能力,如规划和解决问题的能力。

很可能Gemini Ultra能够实现所有这些 - 甚至更多。但是昨天的简报并没有特别令人信服,考虑到谷歌之前最近的人工智能失误,我认为它需要更有说服力。

Chat中文版

自今年初以来,谷歌一直在生成式人工智能领域赶上OpenAI和该公司的热门产品ChatGPT。Bard于2月份发布,因其无法正确回答基本问题而受到批评;包括谷歌伦理团队在内的员工对加快发布时间表表示担忧。

后来有报道称Google雇佣了被过度工作和低薪的第三方承包商Appen和Accenture来为Bard的训练数据进行注释。对于Gemini可能也是如此;Google昨天没有否认这一点,而技术白皮书只是说注释者得到的是“至少当地的生活工资”。

现在,公正地说,Google在某种程度上取得了进展,因为自推出以来,Bard在很大程度上得到了改进,并且Google成功地为许多产品、应用和服务注入了新的生成式人工智能功能,这些功能由像PaLM 2和Imagen这样的自主研发模型提供支持。

但有报道称,Gemini的发展一直存在问题。

据报道,Gemini项目有谷歌高层参与,包括该公司高级AI研究执行官杰夫·迪恩。Gemini项目据说在处理可靠非英语查询等任务上遇到了困难,这导致了Gemini Ultra上线的延迟。(谷歌表示,Gemini Ultra将只提供给选择的客户、开发人员、合作伙伴以及“安全和责任专家”,然后在明年初向开发人员和企业客户推出,紧随其后的是Bard版本。)柯林斯表示,谷歌甚至还不完全了解Gemini Ultra的创新能力,也没有找到Gemini的盈利策略。(考虑到AI模型训练和推理的高昂成本,我怀疑不久之后谷歌会找到解决方法。)

Chat中文版

我们只剩下了Gemini Pro - 而且很可能还有一个不那么令人激动的Gemini Ultra,尤其是如果该模型的上下文窗口仍然是大约24,000个词,就像技术白皮书中所描述的那样。(上下文窗口是指模型在生成任何额外文本之前所考虑的文本。)GPT-4轻松超越了这个上下文窗口(大约100,000个词),但上下文窗口确实不是唯一的重要因素;等我们能够使用该模型后再做出评判。

难道谷歌在宣传Gemini时,强调它将是一项非同凡响的创意人工智能技术,而不是只是改善了一点点生成式人工智能技术的推动,这难道不是今天产品发布惨淡的原因吗?也许是。或许构建先进的生成式人工智能模型真的很难,即使你重新组织整个人工智能部门以加快这个过程。

推荐阅读

谷歌的AI聊天机器人Bard经过大幅升级,采用谷歌的下一代AI模型Gemini

2024-01-11976
Chat中文版

Meta推出了一个独立的基于人工智能技术的图像生成器

2024-01-11386
Chat中文版

Meta的AI角色现已在其美国应用程序中上线,支持Bing搜索并拥有更好的记忆功能

2024-01-111169
Chat中文版

Meta AI在群聊中增加了对Reels的支持和“重新构想”,一种生成新的AI图像的方式,还有其他更新

2024-01-11471
Chat中文版

Respeecher的以道德为先的AI语音克隆方法获得新的融资

2024-01-11897
Chat中文版