谷歌的Gemini Pro 1.5在Vertex AI上公开预览.

Chat中文版

Gemini 1.5 Pro是谷歌最强大的生成式人工智能模型，现在在谷歌企业AI开发平台Vertex AI上公开预览。该公司在本周在拉斯维加斯举行的年度Cloud Next大会期间宣布了这一消息。

Gemini 1.5 Pro于2月份推出，加入了谷歌的生成式AI模型Gemini家族。无疑，它的最大特点是它能处理的上下文量：从128,000个标记到高达1,000,000个标记，这里的“标记”指的是原始数据的细分部分（例如单词“fantastic”中的音节“fan”，“tas”和“tic”）。

一百万令牌相当于大约70万个单词或大约3万行代码。这大约是Anthropic公司旗舰模型Claude 3可以输入的数据量的四倍，比OpenAI的GPT-4 Turbo最大上下文高出约八倍。

模型的上下文，或上下文窗口，指的是模型在生成输出（例如额外的文本）之前考虑的初始数据集（例如文本）。一个简单的问题 — “谁赢得了2020年美国总统选举？” — 可以作为上下文，而电影剧本、电子邮件、论文或电子书也可以作为上下文。

具有较小上下文窗口的模型往往会“忘记”甚至是最近的对话内容，导致它们偏离主题。相比之下，具有较大上下文的模型并不会这样。而且，一个额外的好处是，大上下文模型可以更好地理解它们获取的数据的叙事流程，生成更具上下文丰富性的回复，并减少对微调和事实依据的需求 — 至少在假设情况下。

那么，一个拥有100万记号上下文窗口的具体用途是什么？谷歌承诺有很多用途，比如分析代码库、"跨越"长篇文件进行推理，并与聊天机器人进行长时间对话。

由于 Gemini 1.5 Pro 是多语言的，同时在意义上是多模式的，能够理解图像、视频，以及从周二起还能理解音频流，除了文本。因此，这个模型也可以分析和比较跨不同语言的电视节目、电影、广播节目、电话会议录音等媒体内容。一百万个标记大约可以翻译成一个小时的视频或大约11个小时的音频。

多亏了其音频处理能力，Gemini 1.5 Pro也能为视频剪辑生成转录，不过这些转录的质量还有待评判。

在今年早些时候的一次预先录制的演示中，谷歌展示了Gemini 1.5 Pro搜索阿波罗11号登月直播的文字记录（大约有400页），寻找其中包含笑话的引用，然后找到影片画面中看起来类似于铅笔素描的场景。

谷歌表示，Gemini 1.5 Pro的早期用户，包括United Wholesale Mortgage、TBS和Replit，正在利用大的上下文窗口来完成跨房屋贷款核准、在媒体档案中自动标记元数据以及生成、解释和转换代码等任务。

Gemini 1.5 Pro并不会在一瞬间处理一百万个标记。在上述演示中，每次搜索需要20秒到1分钟的时间才能完成 - 比平均ChatGPT查询时间长得多。

谷歌此前表示延迟是一个关注的领域，并表示正在努力“优化”Gemini 1.5 Pro。

值得注意的是，Gemini 1.5 Pro正逐渐在谷歌公司的其他产品生态系统中推广，该公司周二宣布该模型（处于私人预览阶段）将为Code Assist提供新功能支持，Code Assist是谷歌的生成式AI编码辅助工具。谷歌表示，开发人员现在可以执行“大规模”更改，例如更新跨文件依赖关系和审查大量的代码。

推荐阅读

谷歌推出新的视频产品，可以利用人工智能辅助创建定制视频

所有主要供应商一直在寻找利用人工智能来帮助客户开发创意内容的方法。周二在拉斯维加斯举行的Google Cloud Next客户大会上，谷歌推出了一款名为Google Vids的全新人工智能视频创作工具。这款工具将在发布时成为Google Workspace生产力套件的一部分。[…]

2024-04-091967