谷歌的新款Gemini模型可以分析一个小时长的视频，但很少有人能够使用它

Chat中文版

去年10月份，Google的一位数据科学家、Databricks的CTO Matei Zaharia和加州大学伯克利分校的教授Pieter Abbeel发表了一篇研究论文，提出了一种方法，可以使得GenAI模型（类似于OpenAI的GPT-4和ChatGPT）能够摄取比以前更多的数据。在这项研究中，合著者们证明，通过消除AI模型的一个主要内存瓶颈，他们可以使模型能够处理数百万个单词，而不仅仅是以前能达到的几十万个，这是当时最先进的模型的最大限制。

人工智能研究进展迅速，似乎如此。

今天，谷歌宣布发布其GenAI模型家族中最新成员Gemini 1.5 Pro。Gemini 1.5 Pro旨在成为Gemini 1.0 Pro的直接替代品（之前自称为“Gemini Pro 1.0”，原因仅为谷歌复杂的营销部门所知），与其前身相比，在许多方面都有了提升，其中最显着的可能是它能处理的数据量。

Gemini 1.5 Pro可以容纳约700,000个单词或约30,000行代码 - 是Gemini 1.0 Pro的35倍。而且，作为多模态模型，它不仅限于文本。Gemini 1.5 Pro可以处理多达11小时的音频或1小时的视频，支持多种不同语言。

Chat中文版

明确一点，这是一个上限。

从今天开始，Gemini 1.5 Pro的版本对大多数开发者和客户开放（有限预览版），每次只能处理大约10万个字。谷歌将大规模数据输入的Gemini 1.5 Pro描述为“实验性的”，只允许经过私人预览批准的开发者通过公司的GenAI开发工具AI Studio进行试用。使用谷歌的Vertex AI平台的一些客户也可以使用大规模数据输入的Gemini 1.5 Pro，但并非所有客户都可以使用。

然而，Google DeepMind的研究副总裁Oriol Vinyals将其视为一项重大成就。

“当您与[GenAI]模型进行交互时，您输入和输出的信息就成为了上下文。而且，您的问题和交互越长、越复杂，模型需要处理的上下文就越长。”Vinyals在新闻发布会上表示：“我们已经以非常大规模解锁了长上下文。”

大背景/大背景范围

模型的上下文，或者上下文窗口，指的是模型在生成输出之前考虑的输入数据（比如文本）。一个简单的问题——“2020年美国总统大选谁赢了？”——可以作为上下文，电影剧本、电子邮件或电子书也可以作为上下文。

具有较小上下文窗口的模型往往会“忘记”甚至是最近的对话内容，导致它们偏离主题，通常还会出现问题。但是具有较大上下文的模型不一定会有这个问题。另外，较大上下文模型可以更好地理解输入数据的叙述流程，并产生更具语境丰富的回应 - 至少在假设上是这样的。

以往也有对具有非典型大上下文窗口的模型进行的尝试和实验。

去年夏天，人工智能初创公司Magic宣称已经开发了一个拥有500万标记上下文窗口的大型语言模型（LLM）。过去一年中，有两篇论文详细介绍了模型架构，据称能够扩展到一百万个标记，甚至更多。（“标记”是原始数据的细分位，例如单词“fantastic”中的音节“fan”、“tas”和“tic”）。最近，来自Meta、麻省理工学院和卡内基梅隆大学的一群科学家开发了一种技术，他们称这种技术完全消除了模型上下文窗口大小的限制。

但是谷歌是第一个商业上推出这个尺寸的上下文窗口模型的，超过了前任领先者Anthropic的20万标记上下文窗口 - 如果私人预览视为商业上推出的话。

Chat中文版

Gemini 1.5 Pro的最大上下文窗口为100万个标记，而更广泛可用的模型版本的上下文窗口为128,000个标记，与OpenAI的GPT-4 Turbo相同。

那么，拥有100万个令牌上下文窗口可以实现什么呢？谷歌承诺可以做很多事情，比如分析整个代码库，跨越漫长的合同等文档进行推理，与聊天机器人进行长时间对话，以及分析和比较视频内容。

在简报中，谷歌展示了两个预先录制的演示，其中启用了100万令牌上下文窗口的Gemini 1.5 Pro。

首先，演示者要求Gemini 1.5 Pro搜索阿波罗11号登月播报的文字记录，总共大约402页，寻找包含笑话的引用，并找到一个看起来像铅笔素描的场景。其次，演示者要求该模型根据描述和另一个素描搜索巴斯特·基顿电影《舒尔洛克小侦探》，寻找相关场景。

Chat中文版

Gemini 1.5 Pro成功完成了所有任务的要求，但处理速度并不特别快。每个任务的处理时间在大约20秒到1分钟之间，远远超过了像ChatGPT查询的平均时间。

Chat中文版

Vinyals表示，随着模型的优化，延迟将会改进。目前，公司正在测试一款具有1000万令牌上下文窗口的Gemini 1.5 Pro版本。

“延迟方面[是我们正在努力优化的内容]——这仍处于实验阶段、研究阶段，”他说。“所以我认为这些问题与其他模型一样存在。”

我不太确定很多人会对这么差的延迟感到吸引——更别说付费用户了。需要等待几分钟才能在视频中进行搜索听起来并不愉快——或者说在近期内不太可扩展。而且我对延迟在其他应用中的表现方式，比如聊天机器人对话和代码库分析，感到担忧。Vinyals没有提到——这并没有给人们带来太多信心。

我的乐观的同事Frederic Lardinois指出，整体的时间节省可能使得闲等的价值变得合理。但我认为这将非常依赖于具体的使用情况。用于获取一部剧集的情节要点？可能不值得。但是对于找到一幕你模糊记得的电影场景的合适截图？也许值得一试。

其他的改进

在扩展的内容窗口之外，Gemini 1.5 Pro为用户带来了其他提高生活品质的升级。

谷歌声称，就质量而言，基于全新架构的Gemini 1.5 Pro与谷歌旗舰人工智能模型Gemini Ultra的当前版本“相当”。Gemini 1.5 Pro将任务分解为多个子任务，并将其分配给合适的专家模型，根据其自身的预测决定委派哪个任务。

教育部(MoE)并非新颖之物——在某种形式上它已存在多年。但其高效性和灵活性使其成为模型供应商们越来越受欢迎的选择（例如：驱动微软语言翻译服务的模型）。

现在，“相当的质量”是一个有点模糊的描述。尤其是涉及GenAI模型，特别是多模态模型，质量很难量化 - 尤其是当这些模型被设置为私密预览，不对外公开时更加困难。就目前来说，Google声称Gemini 1.5 Pro在公司用于开发LLM的基准测试中的表现与Ultra“大致相似”，同时在87%的基准测试中胜过Gemini 1.0 Pro。（我要指出的是，胜过Gemini 1.0 Pro并不是一个很高的标准。）

定价是一个大问号。

谷歌表示，在私有预览期间，Gemini 1.5 Pro配备100万个令牌的上下文窗口将免费使用。但该公司计划在不久的将来推出定价等级，从标准的128,000个上下文窗口开始，逐渐扩大到100万个令牌。

我得想象这个更大的上下文窗口不会便宜的——而且谷歌在简报中选择不透露定价并没有消除人们的担忧。如果定价与Anthropic的相同，可能每百万个提示令牌的费用为8美元，每百万个生成令牌的费用为24美元。但也许会更低；奇怪的事情总是会发生！我们需要等待并观察。

我也对Gemini系列的其他机型，尤其是Gemini Ultra的影响产生了疑问。我们能否预期Ultra模型的升级大致与Pro模型同步？还是会像现在这样，Pro机型在性能上始终超过Ultra机型，而Google仍将Ultra机型营销为其Gemini系列的顶级产品，导致一段尴尬的时间？

如果你想表现得慈善一点，可以把这归咎于初期问题。如果你不想，就直接说实话：太令人迷惑了。