谷歌Gemini:关于新的生成型AI平台的一切你需要知道的

AI7号2024-01-112961

Chat中文版

谷歌正尝试引起人们对新一代AI平台“双子座”的关注,该平台最近有了重大突破。但是,虽然“双子座”在某些方面表现出了潜力,但在其他方面却表现不足。那么,“双子座”是什么?你如何使用它?它与竞争对手相比如何?

为了更方便地了解最新的Gemini发展情况,我们为大家准备了这个便利的指南,我们会随着新的Gemini型号和功能的发布而持续更新。

什么是双子座(Gemini)?

双子座是谷歌长期承诺的、下一代生成式人工智能模型系列,由谷歌的人工智能研究实验室DeepMind和谷歌研究共同开发。它有三个版本:

  • 双子座Ultra,双子座系列的旗舰款。
  • 双子座Pro,一个“轻便版”双子座的型号。
  • Gemini Nano,一款更小巧的“精简”型号,适用于像Pixel 8 Pro这样的移动设备。

所有Gemini模型都经过培训以实现“原生多模态”——换句话说,它们能够处理和使用不仅仅是文本的内容。它们经过预训练和微调,使用了多种音频、图片和视频数据,以及大量的代码库和不同语言的文本。

这使得Gemini与谷歌的自己的大型语言模型LaMDA区别开来,后者只能基于文本数据进行训练。LaMDA除了文本(如论文、邮件草稿等)之外,无法理解或生成其他内容,但Gemini模型不同。它们对图像、音频和其他形式的理解能力仍然有限,但总好过没有。

巴德和双子座之间有什么区别?

Chat中文版

谷歌再次证明它在品牌推广方面缺乏技巧,一开始并没有明确指出Gemini与Bard是分属两个不同的东西。Bard只是一个接入特定Gemini型号的界面,可以将其视为Gemini和其他GenAI模型的应用程序或客户端。另一方面,Gemini是一系列的模型,而不是一个应用程序或前端。并不会有独立的Gemini体验,将来也不太可能有。如果要进行比较,Bard就相当于OpenAI的ChatGPT,OpenAI受欢迎的对话人工智能应用程序,而Gemini则对应着为其提供动力的语言模型,在ChatGPT的情况下是GPT-3.5或4。

顺便说一下,双子座也完全独立于Imagen-2,一个可能符合或不符合公司整体人工智能战略的文本到图像模型。别担心,你不是唯一一个被这个搞糊涂的人!

双子座可以做什么?

由于双子座模型是多模态的,理论上它们可以执行各种任务,包括转录语音、为图像和视频加标注,甚至创作艺术作品。目前只有这些功能中的一小部分已经进入产品阶段(稍后会详细介绍),但Google承诺在不太遥远的将来会提供所有这些功能以及更多。

当然,相信公司的话可能有些困难。

谷歌在最初推出巴德时严重失职。最近,谷歌发布了一段视频,声称展示双子座的功能,但事实证明该视频经过了大量篡改,实际上更多是个空想。值得赞扬的是,双子座今天以某种形式面世了,但功能相当有限。

但是,假设谷歌对其声称的信息基本上是真实的,以下是各个层次的Gemini模型在发布后能够实现的功能:

迄今为止,很少有人使用Gemini Ultra,这是其他模型构建的“基础”模型,只有少量“特定客户”可以在谷歌的一些应用和服务上使用。这种情况直到今年晚些时候,谷歌的最大型号才会更广泛地推出。关于Ultra的大部分信息是来自谷歌主导的产品演示,因此最好持保留态度。

谷歌表示,Gemini Ultra可以用于帮助解决物理作业问题,逐步解答工作表问题,并指出已填写答案中的可能错误。谷歌还表示,Gemini Ultra还可用于识别与特定问题相关的科学论文,从这些论文中提取信息,并通过生成必要的公式以使用更近期数据重新创建图表来“更新”图表。

根据Google的说法,Gemini Ultra在技术上支持图像生成,就像前面提到的那样。但是在产品化的版本发布时,这种功能不会被纳入其中,可能是因为这个机制比像ChatGPT等应用程序生成图像的方式更复杂。与像ChatGPT的DALL-E 3一样,不同于向图像生成器提供提示信息,Gemini直接“原生”地输出图像,没有中间步骤。

与Gemini Ultra不同的是,Gemini Pro今天就可以公开获得。但令人困惑的是,它的功能取决于使用的地方。

谷歌表示,在巴德(Bard)中,Gemini Pro首先以纯文本形式推出,该模型在推理、规划和理解能力方面是对LaMDA的改进。卡内基梅隆大学和BerriAI研究人员的一项独立研究发现,Gemini Pro确实比OpenAI的GPT-3.5更擅长处理更长、更复杂的推理链条。

但是这项研究还发现,就像所有大型语言模型一样,Gemini Pro在涉及多位数的数学问题上特别困难,用户发现了许多错误推理和错误的例子。它在简单查询中产生了很多事实错误,例如最新一届奥斯卡的获奖者。谷歌承诺会有改进,但目前尚不清楚具体何时会到位。

Gemini Pro还可以通过谷歌全面管理的AI开发平台Vertex AI的API进行使用。该平台接受文本作为输入并生成文本作为输出。另外,Gemini Pro Vision还能处理文本和图像,包括照片和视频,并输出类似于OpenAI的GPT-4 with Vision模型的文本结果。

Chat中文版

在Vertex AI内部,开发人员可以使用微调或"grounding"过程来定制Gemini Pro以适应特定的上下文和使用案例。Gemini Pro还可以连接到外部的第三方API以执行特定的动作。

在2024年初的某个时候,Vertex的客户将能够利用Gemini Pro来驱动定制的对话语音和聊天代理人(即聊天机器人)。Gemini Pro还将成为Vertex AI中驱动搜索摘要、推荐和答案生成功能的选择,利用不同来源(如OneDrive、Salesforce)的多模态文档(如PDF、图像)来满足查询需求。

Chat中文版

在AI Studio中,Google为应用和平台开发者提供了基于Web的工具,可以使用Gemini Pro创建自由形式、结构化和聊天提示的工作流程。开发者可以同时访问Gemini Pro和Gemini Pro Vision终端节点,并可以调整模型温度以控制输出的创造性范围,并提供示例以提供语气和风格指示,并调整安全设置。

然而,一旦Gemini Pro在Vertex中完全发布,该模型的每个字符的费用将为0.0025美元,而输出的每个字符将为0.00005美元。Vertex的客户按每1,000个字符(大约140到250个单词)计费,并且对于像Gemini Pro Vision这样的模型,按图片计费(每张0.0025美元)。

假设一篇有500个字的文章含有2000个字符。使用Gemini Pro进行摘要,将花费5美元。与此同时,创作一篇相似长度的文章将需要花费0.1美元。

推荐阅读

亚马逊利用人工智能技术,帮助顾客在线购物时找到合身的衣服

2024-01-112767
Chat中文版

尽管可以免费使用GPT-4,微软的Copilot应用并没有对ChatGPT的安装量或收入造成影响

2024-01-111238
Chat中文版

开放AI声称《纽约时报》的版权诉讼毫无道理

2024-01-112771
Chat中文版

GenAI可以使得KYC的有效性大打折扣

2024-01-112614
Chat中文版

大众汽车将在其轿车和SUV上引入ChatGPT技术

2024-01-11368
Chat中文版