Google Gemini: 关于这个新的生成式人工智能平台,你需要了解的一切

AI7号2024-06-28374

Chat中文镜像

谷歌正在努力推广其旗舰产品Gemini,这是其一套生成式人工智能模型、应用和服务。

Google Gemini到底是什么?你该如何使用它?Gemini与竞争对手相比如何呢?

为了更方便地跟上最新的双子星发展,我们准备了这个方便的指南,我们会随着新的双子星模型、功能和有关谷歌双子星计划的新闻的发布而不断更新。

双子座是什么?

双子座是谷歌旗下AI研究实验室DeepMind和谷歌研究共同开发的一款次时代生成式AI模型系列,被誉为长久以来谷歌的心头肉。它有四种不同的版本:

  • 金牛座超级版,金牛座系列中性能最出色的一款。
  • 金牛座Pro是Ultra的轻量替代品。
  • 金牛闪电,Pro版本的更快速、更“精炼”版。
  • 双子座纳米,两个小型款式——纳米-1和更强大的纳米-2——旨在在移动设备上离线运行。

所有双子模型都经过训练,能够本地多模态——也就是说,能够处理和分析不仅仅是文字。谷歌表示,它们经过了在各种公开、专有和许可的音频、图像和视频数据,以及大量的代码库和不同语言的文字上的预训练和微调。

这使得Gemini与谷歌自己的LaMDA等模型有所区别,LaMDA仅在文本数据上进行训练。LaMDA无法理解或生成超出文本范围的内容(例如,文章、电子邮件草稿),但这在Gemini模型中并非必然情况。

我们在这里需要注意,在一些情况下,在未经数据所有者知情或同意的情况下,在公共数据上进行模型训练的道德和合法性确实令人费解。谷歌拥有一项人工智能赔偿政策,以保护某些谷歌云客户免受诉讼的影响,但此政策中包含了一些例外情况。特别是如果您打算在商业上使用Gemini,请谨慎行事。

“双子应用”和“双子模型”有什么区别?

再次证明谷歌在品牌营销方面并不在行,从一开始就没有清楚地表明Gemini与之前在网页和移动端的Gemini应用是分开独立的(前身为Bard)。

Gemini应用是连接到各种Gemini模型的客户端 - 目前为止有Gemini Ultra(带有下面的Gemini Advanced)和Gemini Pro - 并在其上添加类似聊天机器人的界面。把它们看作是谷歌生成AI的前端,类似于OpenAI的ChatGPT和Anthropic的Claude应用系列。

双子座在网络上居住在这里。在安卓手机上,双子座应用程序取代了现有的谷歌助手应用程序。而在iOS上,谷歌和谷歌搜索应用程序充当了该平台的双子座客户端。

双子应用可以接受图片、语音命令和文本,包括PDF等文件,很快还可以上传或从谷歌驱动器导入视频,并生成图片。正如你所期望的那样,在移动设备上与双子应用的对话会同步到网络版双子应用,反之亦然,如果在两个地方都使用相同的谷歌账号登录的话。

双子座产品适用于Gmail、文档、Chrome、开发工具等。

Gemini应用程序不是唯一招募双子星模特协助任务的方式。慢慢地,双子星特性正在逐渐融入谷歌的标配应用程序和服务,比如Gmail和Google文档。

要充分利用这些功能,您需要订阅Google One AI高级计划。作为Google One的一部分,AI 高级计划的费用为$20,可让您在Google Workspace应用如Docs、Slides、Sheets和Meet中使用Gemini。它还支持Google所称的Gemini高级功能,为Gemini应用提供支持,并能分析和回答有关上传文件的问题。

双子座高级用户会在各个地方得到额外的福利,比如在谷歌搜索中进行旅行规划,可以根据用户提供的信息定制旅行行程。考虑到飞行时间(从用户的Gmail收件箱中的邮件中获取)、餐饮偏好和当地景点信息(来自谷歌搜索和地图数据),以及这些景点之间的距离,双子座将生成一个可以自动更新以反映任何变化的行程安排。

在Gmail中,Gemini位于一个侧边栏,可以写邮件并总结邮件主题。你会在Docs中找到同样的面板,在那里它可以帮助你写作并完善内容,还可以帮助你构思新的想法。在Slides中的Gemini可以生成幻灯片和自定义图片。而在Google Sheets中,Gemini可以追踪和整理数据,创建表格和公式。

双子座的功能还可以延伸到Drive,它可以总结文件并快速提供有关项目的信息。同时,在Meet中,双子座还可以将标题翻译成其他语言。

双子座最近以人工智能写作工具的形式进入了谷歌的Chrome浏览器。您可以使用它来书写全新的内容,或者重写现有的文本;谷歌表示它会考虑您所在的网页来给出建议。

在其他地方,你会在谷歌的数据库产品、云安全工具、应用开发平台(包括Firebase和Project IDX)中找到双子座的迹象,更不用说像谷歌电视(双子座为电影和电视节目生成描述)、谷歌相册(处理自然语言搜索查询)和笔记本LM笔记助手等应用了。

Code Assist(原名Duet AI for Developers),是谷歌旗下基于人工智能的代码补全和生成助手工具套装,现在将大部分繁重的计算工作交给了Gemini来处理。同样依托Gemini的还有谷歌的安全产品,比如威胁情报中的Gemini,它可以分析大量潜在恶意代码,并让用户通过自然语言搜索来查找持续的威胁或妥协迹象。

双子宝石定制聊天机器人

在2024年的Google I/O大会上宣布,Gemini Advanced用户未来将能够创建Gem,即由Gemini模型驱动的定制聊天机器人。Gem可以从自然语言描述中生成,例如“你是我的跑步教练。给我制定一个每日跑步计划”,然后与他人分享或保持私密。

最终,Gems将能够与更多的谷歌服务进行整合,包括谷歌日历、任务、便签和YouTube音乐,以完成各种任务。

双子座直播深度语音聊天

一个名为双子座直播的全新体验即将在Gemini高级订阅用户独享的Gemini移动应用中推出,让用户可以与Gemini进行“深入”语音聊天。

开启了双子座直播后,用户可以在聊天机器人说话时打断它提出澄清问题,它将实时适应他们的语音模式。双子座还能够通过用户的智能手机摄像头拍摄的照片或视频来看到并回应用户的周围环境。

Live还被设计成一种虚拟教练,帮助用户排练活动,头脑风暴新想法等。例如,Live可以建议在即将到来的工作或实习面试中突出显示哪些技能,还可以给予演讲建议。

双子座模特能做什么?

由于双子座模型是多模式的,它们可以执行各种多模式任务,从转录语音到实时为图像和视频加字幕。其中许多功能已经达到产品阶段(如前一节中所提到的),谷歌公司承诺在不久的将来将推出更多功能。

当然,相信公司的话有点困难。

谷歌在最初的Bard发布中严重失约。最近,它发布了一段视频,声称展示了双子座的功能,但事实上更多是雄心壮志,而不是实时的,还有一个图像生成功能,结果是极具冒犯性的不准确。

此外,谷歌也没有针对当今生成式人工智能技术中一些潜在问题提供解决方案,比如其内在的偏见和编码的倾向性(即幻觉)。其竞争对手也没有提供解决方案,但在考虑使用或支付Gemini时,这是需要牢记的事情。

假设本文的目的是Google最近的声明是真实的,那么现在双子座的不同层级可以做什么,以及一旦它们达到其全面潜力时将能够做什么:

用Gemini Ultra你可以做什么

谷歌表示Gemini Ultra可以通过其多模式功能帮助解决物理作业问题,逐步解决工作表中的问题,并指出已填写答案中可能的错误。

谷歌表示,Ultra也可以应用于识别与问题相关的科学论文之类的任务。例如,该模型可以从多篇论文中提取信息,并通过生成必要的公式更新图表,以使用更及时的数据重新创建图表。

双子超级技术上支持图像生成。但这种能力尚未进入该型号的产品化版本 - 或许是因为该机制比诸如ChatGPT之类的应用程序生成图像的方式更复杂。与像ChatGPT这样的应用程序将提示输入到图像生成器(在ChatGPT的情况下是DALL-E 3)不同,双子以“本地”方式输出图像,而不经过中间步骤。

Ultra可以通过Vertex AI和AI Studio作为API提供。Vertex AI是谷歌完全托管的人工智能开发平台,AI Studio是谷歌面向应用和平台开发人员的基于网络的工具。它还为谷歌的Gemini应用程序提供支持,但并非免费。再次强调,通过任何Gemini应用程序访问Ultra都需要订阅人工智能高级计划。

双子座 Pro 的能力

谷歌表示Gemini Pro在推理、规划和理解能力方面优于LaMDA。谷歌声称,最新版本Gemini 1.5 Pro在某些领域甚至超过了Ultra的性能。

与其前身Gemini 1.0 Pro相比,Gemini 1.5 Pro在许多方面都有所改进,可能最明显的是它可以处理的数据量。Gemini 1.5 Pro可以处理高达140万字,两小时的视频或22小时的音频,并且可以对所有这些数据进行推理或回答问题。

2022年6月,1.5 Pro版在Vertex AI和AI Studio上正式推出,同时推出了一个名为代码执行的功能,旨在通过多步骤迭代地优化代码,从而减少模型生成的代码中的错误。(代码执行还支持Gemini Flash。)

在 Vertex AI 中,开发人员可以通过微调或“接地”过程将 Gemini Pro 定制到特定的环境和用例中。例如,Pro(以及其他 Gemini 模型)可以被指示使用来自第三方提供商(如穆迪、汤森路透、ZoomInfo 和 MSCI)的数据,或者从企业数据集或谷歌搜索中获取信息,而不是使用其更广泛的知识库。Gemini Pro 还可以连接到外部第三方 API,执行特定的操作,如自动化工作流程。

AI Studio提供了用于创建结构化聊天提示的模板,适用于Pro版本。开发人员可以控制模型的创意范围,并提供示例以给出语调和风格的指导,还可以调整Pro的安全设置。

Vertex AI Agent Builder允许用户在Vertex AI内构建由Gemini驱动的“代理”。例如,一家公司可以创建一个代理,分析先前的营销活动,了解品牌风格,然后应用这些知识来帮助生成符合该风格的新想法。

双子闪光灯适用于需求较低的工作。

对于要求不那么严格的应用程序,有双子座闪存。最新版本是1.5闪存。

Gemini Pro的一个分支是Flash,它小巧高效,专为狭窄的高频生成式人工智能工作负载而设计。就像Gemini Pro一样,Flash是多模式的,意味着它可以分析音频、视频和图像,以及文本(但只能生成文本)。

谷歌表示,Flash特别适合摘要、聊天应用程序、图像和视频标题以及从长文档和表格中提取数据的任务。它将在7月中旬之前通过Vertex AI和AI Studio普遍可用。

使用Flash和Pro的开发人员可以选择利用上下文缓存,这使他们能够将大量信息(比如知识库或研究论文数据库)存储在缓存中,Gemini模型可以快速且相对便宜地访问这些信息。然而,上下文缓存需要额外支付费用,除了Gemini模型的其他使用费用。

双子座纳米可以在你的手机上运行。

双子座纳米是双子座Pro和Ultra模型的更小版本,它足够高效,可以直接在一些手机上运行,而不是把任务发送到服务器上。到目前为止,纳米在Pixel 8 Pro、Pixel 8和三星Galaxy S24上支持一些功能,包括录音中的总结和Gboard中的智能回复。

Recorder 应用程序可以让用户按下按钮录制和转录音频,其中还包括由 Gemini 提供的已录制对话、采访、演示和其他音频片段的摘要。用户甚至可以在没有信号或 Wi-Fi 连接的情况下获得摘要,而且考虑到隐私,整个过程中手机不会泄露任何数据。

纳米也出现在谷歌的键盘替代品Gboard中。在那里,它驱动了一个名为智能回复的功能,可以帮助建议在消息应用中进行对话时下一步想要说的话。谷歌表示,该功能最初只适用于WhatsApp,但将在未来扩展到更多应用。

在支持的设备上,Nano驱动魔法撰写功能,可以在Google信息应用程序中以“兴奋”、“正式”和“抒情”的风格撰写消息。

谷歌表示,未来版本的Android将利用纳米技术在通话过程中提醒用户潜在的诈骗行为。而且,谷歌的辅助功能服务TalkBack也将很快利用纳米技术为视力低下和盲人用户创造物体的声音描述。

双子座比OpenAI的GPT-4更好吗?

谷歌多次宣传了Gemini在基准测试中的优越性,声称Gemini Ultra在“用于大型语言模型研究和开发的32个常用学术基准测试中30个”上超过了当前的最先进结果。但不管基准测试是否真的能表明一个更好的模型,谷歌所指出的分数似乎只比OpenAI的GPT-4模型稍微好一点。

OpenAI最新的旗舰模型GPT-4o在文本评估、视觉理解和音频翻译性能方面明显领先于1.5 Pro。与此同时,Anthropic的Claude 3.5 Sonnet击败了它们两个 - 但也许不久了,考虑到人工智能行业的飞速发展。

双子座模特的价格是多少?

通过Google的Gemini API,Gemini 1.0 Pro(Gemini Pro的第一个版本),1.5 Pro和Flash可用于构建应用程序和服务,都有免费选项。但是免费选项会施加使用限制,并且省略了一些功能,比如上下文缓存。

否则,双子座模型是按需付费的。以下是截至2024年6月的基准定价(不包括上下文缓存等附加功能):

  • 双子座1.0专业版:每100万输入代币50美分,每100万输出代币1.50美元。
  • 双子 1.5 专业版:每输入 100 万个标记收费 3.05 美元(用于最多 128,000 个标记的提示),或者每输入 100 万个标记收费 7 美元(用于超过 128,000 个标记的提示);每输入 100 万个标记收费 10.50 美元(用于最多 128,000 个标记的提示),或者每输入 100 万个标记收费 21.00 美元(用于超过 128,000 个标记的提示)。
  • 双子座1.5闪存:每100万令牌35美分(用于少于128K令牌的提示),每100万令牌70美分(用于超过128K的提示);每100万令牌1.05美元(用于少于128K令牌的提示),每100万令牌2.10美元(用于超过128K的提示)

标记是原始数据的细分部分,就像单词“fantastic”中的音节“fan”,“tas”和“tic”一样;100万个标记大约等于70万个单词。“输入”指的是输入模型的标记,而“输出”指的是模型生成的标记。

“Ultra”价格尚未公布,Nano仍处于早期访问阶段。

双子座星座会登陆iPhone吗?

据报道,苹果和谷歌正在商讨将“Gemini”用于今年晚些时候的iOS更新中的多项功能。目前还没有最终确定的消息,因为据说苹果也正在和OpenAI进行商谈,并且一直在开发自己的生成式人工智能能力。

在WWDC 2024的主题演讲之后,苹果公司高级副总裁克雷格·费德里吉确认了与其他第三方模型合作的计划,包括与Gemini的合作,但没有透露更多细节。

本帖最初发布于2024年2月16日,自那时起已经更新,包括有关双子座和谷歌对其计划的新信息。