谷歌双子座(Google Gemini):关于新的生成式人工智能平台,你需要知道的一切

AI7号2024-09-102230

Chat中文镜像

谷歌正试图凭借 Gemini 掀起波澜,Gemini 是其旗舰级的生成式人工智能模型、应用程序和服务套件。但 Gemini 到底是什么?如何使用它?与其他生成式人工智能工具(如 OpenAI 的 ChatGPT、Meta 的 Llama 和微软的 Copilot)相比,它又表现如何?

为了更轻松地跟上 Gemini 的最新发展动态,我们整理了这份实用指南,并且会随着新的 Gemini 模型、功能以及有关谷歌 Gemini 计划的新闻发布而持续更新。

双子座是什么?

双子座(Gemini)是谷歌早就承诺的下一代生成式人工智能模型系列。由谷歌的人工智能研究实验室 DeepMind 和谷歌研究开发,它有四种类型:

  • “Gemini Ultra”常见释义为“双子座超(级)”
  • “Gemini Pro”常见释义为“双子座 Pro”
  • 双子座闪存(Gemini Flash),是 Pro 更快速、“精简”的版本
  • 双子座纳米(Gemini Nano),两个小型型号:纳米 - 1(Nano-1)和功能稍强的纳米 - 2(Nano-2),后者旨在离线运行。

所有 Gemini 模型都经过训练,具有原生多模态能力——换句话说,能够处理和分析的不仅仅是文本。谷歌表示,它们在各种公开、专有和授权的音频、图像和视频、一组代码库以及不同语言的文本上进行了预训练和微调。

这使得 Gemini 与谷歌自家的 LaMDA 等模型有所不同,LaMDA 仅基于文本数据进行训练。LaMDA 无法理解或生成文本之外的任何内容(如文章、电子邮件等),但 Gemini 模型并非一定如此。

在此我们要指出,在某些情况下,在数据所有者不知情或未同意的情况下,基于公共数据训练模型的道德和合法性确实存在模糊之处。谷歌有一项人工智能赔偿政策,旨在为某些谷歌云客户提供保护,使其在面临诉讼时免受影响,但该政策存在一些除外条款。请谨慎行事——特别是如果您打算将 Gemini 用于商业用途。

双子座应用程序和双子座模型之间有什么区别?

Gemini 与网络和移动端的 Gemini 应用程序(以前称为 Bard)是相互独立且不同的。

Gemini 应用程序是连接到各种 Gemini 模型并在顶部叠加类似聊天机器人界面的客户端。可以将它们视为谷歌生成式人工智能的前端,类似于 ChatGPT 和 Anthropic 的 Claude 系列应用程序。

Gemini 在网络上的服务在这里。在安卓系统中,Gemini 应用程序取代了现有的谷歌助手应用程序。而在 iOS 系统中,谷歌和谷歌搜索应用程序作为该平台的 Gemini 客户端。

在安卓系统上,最近还可以在任何应用程序之上调出 Gemini 覆盖层,询问屏幕上的内容(例如,YouTube 视频)相关的问题。只需长按支持的智能手机的电源按钮或说“嘿,谷歌”;您就会看到覆盖层弹出。

Gemini 应用程序可以接收图像、语音指令和文本——包括 PDF 之类的文件,很快还能接收视频,这些可以是上传的,也可以是从 Google Drive 导入的——并且能够生成图像。正如您所期望的,如果您在移动设备和网页上使用 Gemini 应用程序时都登录了同一个 Google 账号,那么在移动设备上与 Gemini 应用程序的对话会延续到网页端,反之亦然。

“Gemini Advanced”常见释义为“双子座先进型”

Gemini 应用程序并非获取 Gemini 模型协助完成任务的唯一途径。虽然进展缓慢但却坚定不移,融入 Gemini 特色的功能正逐渐进入 Gmail 和 Google Docs 等谷歌的常用应用程序和服务中。

要利用其中的大多数功能,您需要谷歌一号 AI 高级计划。从技术上讲,AI 高级计划是谷歌一号的一部分,费用为 20 美元,可在谷歌Workspace 应用程序(如 Docs、Slides、Sheets 和 Meet)中使用 Gemini。它还支持谷歌所谓的 Gemini 高级版,将该公司更复杂的 Gemini 模型引入 Gemini 应用程序。

Gemini 高级用户也能到处获得额外福利,比如优先使用新功能,能够直接在 Gemini 中运行和编辑 Python 代码,以及更大的“上下文窗口”。Gemini 高级版在一次对话中能够记住大约 75 万个单词(或 1500 页文档)的内容并进行推理。相比之下,普通版 Gemini 应用程序只能处理 24000 个单词(或 48 页)。

双子座高级版的另一项独家功能是在谷歌搜索中进行旅行规划,它能根据提示创建定制的旅行行程。考虑到诸如航班时间(来自用户 Gmail 收件箱中的电子邮件)、餐饮偏好和当地景点信息(来自谷歌搜索和地图数据),以及这些景点之间的距离等因素,双子座将生成一个自动更新以反映任何变化的行程。

双子座(Gemini)在谷歌服务中的应用也通过两项计划向企业客户提供,即 Gemini Business(谷歌工作区的附加服务)和 Gemini Enterprise。Gemini Business 的费用低至每名用户每月 20 美元,而 Gemini Enterprise——增加了会议笔记和翻译字幕以及文件分类和标注——的价格为每名用户每月 30 美元及以上。(这两项计划都需要签订一年的协议。)

双子座(Gemini)在 Gmail、Docs、Chrome、开发工具等中的应用

在 Gmail 中,Gemini 存在于一个侧边栏中,可以撰写电子邮件并总结消息线程。在 Docs 中您也能找到同样的侧边栏,它能帮助您撰写和完善内容以及构思新想法。在 Slides 中,Gemini 可以生成幻灯片和自定义图像。而在 Google Sheets 中,Gemini 能够跟踪和整理数据,创建表格和公式。

Gemini 的应用范围还延伸到了 Drive,在那里它可以总结文件并提供有关项目的快速信息。与此同时,在 Meet 中,Gemini 可以将字幕翻译成其他语言。

双子座(Gemini)最近以人工智能写作工具的形式出现在谷歌的 Chrome 浏览器中。您可以用它来创作全新的内容或者重写现有的文本;谷歌表示,它会考虑您所在的网页来提供建议。

在其他地方,您会在谷歌的数据库产品、云安全工具、应用开发平台(包括 Firebase 和 Project IDX)中发现双子座(Gemini)的影子,还有像谷歌相册(Gemini 在此处理自然语言搜索查询)、YouTube(它在此帮助构思视频创意)和 NotebookLM 笔记助手这样的应用程序也是如此。

代码辅助(以前称为开发者版 Duet AI),即谷歌用于代码补全和生成的一套由人工智能驱动的辅助工具,正在将繁重的计算任务交由 Gemini 处理。谷歌以 Gemini 为支撑的安全产品也是如此,比如威胁情报中的 Gemini,它能够分析大量潜在的恶意代码,并让用户使用自然语言搜索正在进行的威胁或妥协的迹象。

双子座扩展和宝石

在 2024 年的谷歌 I/O 大会上宣布,Gemini 高级用户可以创建 Gems,即由 Gemini 模型驱动的自定义聊天机器人。Gems 可以根据自然语言描述生成——例如,“你是我的跑步教练。给我一个每日跑步计划”——并且可以与他人分享或保持私密。

Gems 在 150 个国家和大多数语言环境下的桌面端和移动端均可使用。最终,用户将能够利用与谷歌服务(包括谷歌日历、任务、Keep 和 YouTube Music)更广泛的集成来完成自定义任务。

说到集成,网页版和移动端的 Gemini 应用程序可以通过谷歌所谓的“Gemini 扩展”接入谷歌服务。Gemini 目前已与谷歌云端硬盘、Gmail 和 YouTube 集成,以响应诸如“你能总结我最近的三封电子邮件吗?”这样的查询。今年晚些时候,Gemini 将能够与谷歌日历、Keep、Tasks、YouTube Music 和 Utilities(这些是安卓专属应用程序,可控制设备上的功能,如定时器和闹钟、媒体控制、手电筒、音量、Wi-Fi、蓝牙等)进行更多操作。

双子座直播深度语音聊天

一项名为“双子座直播”的新体验,仅供 Gemini Advanced 订阅用户使用,允许用户与 Gemini 进行“深入”的语音聊天。它在移动端的 Gemini 应用程序和 Pixel Buds Pro 2 中可用,即使手机处于锁定状态也能访问。

启用 Gemini Live 后,当聊天机器人(以几种新声音之一)说话时,您可以打断它提出澄清问题,它会实时适应您的说话模式。今年晚些时候,Gemini 将能够通过您智能手机摄像头拍摄的照片或视频看到并回应您周围的环境。

Live 还被设计成某种虚拟教练,帮助您为各种活动进行排练、头脑风暴出点子等等。例如,Live 可以建议在即将到来的工作或实习面试中突出哪些技能,还能提供公开演讲的建议。

您可以在此处阅读我们对 Gemini Live 的评论。剧透预警:我们认为该功能要变得超级有用还有一段路要走——但不可否认,现在还为时尚早。

通过 Imagen 3 生成图像

双子座用户可以使用谷歌内置的 Imagen 3 模型生成艺术品和图像。

谷歌表示,Imagen 3 相较于其前身 Imagen 2,能够更准确地理解转化为图像的文本提示,而且生成的图像更具“创造性和细节性”。此外,该模型产生的伪影和视觉错误更少(至少谷歌是这么说的),并且是目前在渲染文本方面表现最佳的 Imagen 模型。

早在 2 月份,在用户抱怨存在历史不准确的问题后,谷歌被迫暂停了 Gemini 生成人物图像的能力。但在 8 月份,该公司为某些用户重新引入了生成人物图像的功能,特别是那些注册了谷歌某项付费 Gemini 计划(例如 Gemini Advanced)的英语用户,这是试点项目的一部分。

青少年双子座

今年 6 月,谷歌推出了针对青少年的 Gemini 体验,允许学生通过他们的谷歌教育版 Workspace 学校账户进行注册。

针对青少年的 Gemini 具有“额外的政策和保障措施”,包括量身定制的入门流程和“AI 素养指南”(用谷歌的话说)“帮助青少年负责任地使用 AI”。否则,它与标准的 Gemini 体验几乎相同,甚至包括“复查”功能,该功能会在网络上进行搜索,以查看 Gemini 的回答是否准确。

智能家居设备中的双子座

越来越多的谷歌制造的设备利用 Gemini 来增强功能,从谷歌电视流媒体播放器到 Pixel 9 和 9 Pro,再到最新的 Nest 学习型恒温器。

在 Google TV 流媒体播放器上,Gemini 会根据您的偏好为您策划来自您订阅内容的推荐,并总结评论甚至整季电视剧的情况。

在最新的 Nest 恒温器(以及 Nest 音箱、摄像头和智能显示屏)上,Gemini 很快将增强谷歌助手的会话和分析能力。

今年晚些时候,谷歌 Nest Aware 计划的订阅用户将提前体验到由 Gemini 驱动的新功能,例如 Nest 摄像头拍摄内容的人工智能描述、自然语言视频搜索和推荐自动化。Nest 摄像头将能够理解实时视频源中正在发生的事情(例如,当狗在花园里挖洞时),而配套的谷歌家庭应用程序将根据描述呈现视频并创建设备自动化(例如,“孩子们是不是把自行车留在车道上了?”,“每周二我下班回家时,让我的 Nest 恒温器打开暖气”)。

同样在今年晚些时候,谷歌助手将在 Nest 品牌及其他智能家居设备上获得一些升级,以使对话感觉更自然。改进后的语音即将推出,此外还能够提出后续问题以及“[更]轻松地来回交流”。

双子座模型能做什么?

因为 Gemini 模型是多模态的,它们能够执行一系列多模态任务,从转录语音到实时为图像和视频添加字幕。其中许多功能已经达到了产品阶段(如前一节所述),而且谷歌承诺在不远的将来会有更多的成果。

当然,很难完全相信该公司的话。谷歌最初推出巴德(Bard)时表现严重不佳。就在最近,它发布了一段声称展示双子座(Gemini)能力的视频,引发了争议,因为这段视频或多或少只是一种愿景,而非实际情况。

此外,谷歌对于当今生成式人工智能技术的一些潜在问题,比如其编码的偏见和编造内容(即产生幻觉)的倾向,也没有提供解决方案。其竞争对手同样没有,但在考虑使用或为 Gemini 付费时,这是需要牢记的一点。

假设就本文而言,谷歌近期的声明属实,以下是不同层级的 Gemini 目前能做的事情,以及它们充分发挥潜力后将能够做到的事情:

你能用 Gemini Ultra 做什么

谷歌表示,由于具备多模态功能,Gemini Ultra 可用于协助完成诸如物理作业、在工作表上逐步解决问题以及指出已填写答案中可能存在的错误等任务。

谷歌表示,Ultra 还可应用于诸如确定与某个问题相关的科学论文等任务。例如,该模型可以从多篇论文中提取信息,并通过生成必要的公式,用更及时的数据更新其中一篇论文中的图表以重新创建图表。

Gemini Ultra 在技术上支持图像生成。但该功能尚未纳入该模型的产品化版本——也许是因为其机制比 ChatGPT 等应用程序生成图像的方式更为复杂。Gemini 并非将提示输入到图像生成器(如 ChatGPT 中的 DALL-E 3),而是“原生”输出图像,无需中间步骤。

Ultra 可通过 Vertex AI(谷歌的全托管人工智能开发平台)和 AI Studio(谷歌面向应用和平台开发者的基于网络的工具)以 API 的形式提供。

“Gemini Pro 的能力”

谷歌表示,Gemini Pro 在推理、规划和理解能力方面比 LaMDA 有所改进。最新版本的 Gemini 1.5 Pro 为 Gemini 高级订阅用户的 Gemini 应用程序提供支持,在某些领域甚至超过了 Ultra 的性能。

与前代产品 Gemini 1.0 Pro 相比,Gemini 1.5 Pro 在多个方面都有所改进,也许最明显的是其能够处理的数据量。Gemini 1.5 Pro 最多可以接收 140 万个单词、两小时的视频或 22 小时的音频,并对这些数据进行推理或回答相关问题(或多或少)。

Gemini 1.5 Pro 于 6 月在 Vertex AI 和 AI Studio 上全面推出,同时推出了一项名为代码执行的功能,该功能旨在通过在多个步骤中反复优化模型生成的代码来减少其中的错误。(代码执行也支持 Gemini Flash。)

在 Vertex AI 中,开发人员可以通过微调或“扎根”过程将 Gemini Pro 定制到特定的上下文和用例。例如,可以指示 Pro(以及其他 Gemini 模型)使用来自穆迪、汤森路透、ZoomInfo 和 MSCI 等第三方提供商的数据,或者从企业数据集或谷歌搜索中获取信息,而不是使用其更广泛的知识库。Gemini Pro 还可以连接到外部的第三方 API 以执行特定操作,例如自动化后台工作流程。

AI Studio 为使用 Pro 创建结构化聊天提示提供模板。开发人员可以控制模型的创作范围,并提供示例以给出语气和风格指示 - 还可以调整 Pro 的安全设置。

Vertex AI 代理构建器允许人们在 Vertex AI 中构建由 Gemini 驱动的“代理”。例如,一家公司可以创建一个代理,分析以往的营销活动以了解品牌风格,然后运用这些知识帮助生成符合该风格的新想法。

双子座闪光灯适用于要求不高的工作。

对于要求不那么高的应用程序,有 Gemini Flash。最新版本是 1.5 Flash;未订阅 Gemini Advanced 的 Gemini 应用程序用户可以使用这个。

Flash 是 Gemini Pro 的一个分支,体积小且效率高,专为狭窄、高频的生成式人工智能工作负载而构建。和 Gemini Pro 一样,Flash 是多模态的,这意味着它可以分析音频、视频和图像以及文本(但只能生成文本)。谷歌表示,Flash 特别适用于总结和聊天应用等任务,以及图像和视频的字幕生成,还有从长文档和表格中提取数据。

使用 Flash 和 Pro 的开发人员可以选择利用上下文缓存,这使他们能够在缓存中存储大量信息(例如,知识库或研究论文数据库),Gemini 模型可以快速且相对低成本地访问这些信息。然而,上下文缓存是在其他 Gemini 模型使用费用之外的额外费用。

Gemini Nano 可以在您的手机上运行。

Gemini Nano 是 Gemini Pro 和 Ultra 型号的小得多的版本,其效率足以直接在(某些)设备上运行,而无需将任务发送到某个服务器。到目前为止,Nano 为 Pixel 8 Pro、Pixel 8、Pixel 9 Pro、Pixel 9 和三星 Galaxy S24 上的一些功能提供支持,包括 Recorder 中的总结功能和 Gboard 中的智能回复功能。

录音器应用程序允许用户点击按钮来录制和转录音频,其中包含由 Gemini 提供支持的录制对话、访谈、演示和其他音频片段的摘要。即使用户没有信号或 Wi-Fi 连接,也能获得摘要。出于对隐私的考虑,在处理过程中不会有数据离开他们的手机。

Nano 也在 Gboard 中,即谷歌的键盘替代品里。在那里,它为一项名为“智能回复”的功能提供支持,该功能有助于在诸如 WhatsApp 之类的消息应用程序中聊天时,为您建议接下来想说的内容。

在支持的设备上的谷歌消息应用程序中,Nano 驱动了 Magic Compose,它可以用“兴奋”“正式”和“抒情”等风格来编写消息。

谷歌表示,未来版本的安卓系统将利用 Nano 在通话期间提醒用户防范潜在诈骗。Pixel 手机上的新天气应用程序使用 Gemini Nano 生成量身定制的天气预报。而谷歌的辅助功能服务 TalkBack 则利用 Nano 为视力低下和失明用户创建对象的音频描述。

双子座模型多少钱?

Gemini 1.0 Pro(Gemini Pro 的第一个版本)、1.5 Pro 和 Flash 可通过谷歌的 Gemini API 用于构建应用程序和服务——都有免费选项。但免费选项有使用限制,并排除了某些功能,如上下文缓存和批处理。

双子座模型采用按需付费的方式。以下是截至 2024 年 9 月的基础定价——不包括像上下文缓存之类的附加组件:

  • Gemini 1.0 Pro:每 100 万个输入令牌 50 美分,每 100 万个输出令牌 1.5 美元
  • Gemini 1.5 Pro:每 100 万输入令牌 3.50 美元(对于最多 128K 令牌的提示)或每 100 万输入令牌 7 美元(对于超过 128K 令牌的提示);每 100 万输出令牌 10.50 美元(对于最多 128K 令牌的提示)或每 100 万输出令牌 21.00 美元(对于超过 128K 令牌的提示)
  • 双子座 1.5 闪存:每 100 万个输入令牌 7.5 美分(对于最长 128K 个令牌的提示),每 100 万个输入令牌 15 美分(对于超过 128K 个令牌的提示);每 100 万个输出令牌 30 美分(对于最长 128K 个令牌的提示),每 100 万个输出令牌 60 美分(对于超过 128K 个令牌的提示)

令牌是原始数据的细分部分,就像单词“fantastic”中的音节“fan”、“tas”和“tic”;100 万个令牌大约相当于 70 万个单词。输入是指输入到模型中的令牌,而输出是指模型生成的令牌。

Ultra 的定价尚未公布,Nano 仍处于早期使用阶段。

双子座要登陆 iPhone 吗?

它可能(会)。

苹果公司表示,正在洽谈将 Gemini 和其他第三方模型用于其 Apple Intelligence 套件中的多项功能。在 2024 年全球开发者大会(WWDC)的主题演讲之后,苹果高级副总裁克雷格·费德里吉(Craig Federighi)证实了与包括 Gemini 在内的模型合作的计划,但他没有透露任何其他细节。

这篇帖子最初于 2024 年 2 月 16 日发布,此后已更新,纳入了关于 Gemini 和谷歌相关计划的新信息。