谷歌的Gemini Pro 1.5在Vertex AI上公开预览.

AI7号2024-04-091728

Chat中文版

Gemini 1.5 Pro是谷歌最强大的生成式人工智能模型,现在在谷歌企业AI开发平台Vertex AI上公开预览。该公司在本周在拉斯维加斯举行的年度Cloud Next大会期间宣布了这一消息。

Gemini 1.5 Pro于2月份推出,加入了谷歌的生成式AI模型Gemini家族。无疑,它的最大特点是它能处理的上下文量:从128,000个标记到高达1,000,000个标记,这里的“标记”指的是原始数据的细分部分(例如单词“fantastic”中的音节“fan”,“tas”和“tic”)。

一百万令牌相当于大约70万个单词或大约3万行代码。这大约是Anthropic公司旗舰模型Claude 3可以输入的数据量的四倍,比OpenAI的GPT-4 Turbo最大上下文高出约八倍。

模型的上下文,或上下文窗口,指的是模型在生成输出(例如额外的文本)之前考虑的初始数据集(例如文本)。一个简单的问题 — “谁赢得了2020年美国总统选举?” — 可以作为上下文,而电影剧本、电子邮件、论文或电子书也可以作为上下文。

具有较小上下文窗口的模型往往会“忘记”甚至是最近的对话内容,导致它们偏离主题。相比之下,具有较大上下文的模型并不会这样。而且,一个额外的好处是,大上下文模型可以更好地理解它们获取的数据的叙事流程,生成更具上下文丰富性的回复,并减少对微调和事实依据的需求 — 至少在假设情况下。

那么,一个拥有100万记号上下文窗口的具体用途是什么?谷歌承诺有很多用途,比如分析代码库、"跨越"长篇文件进行推理,并与聊天机器人进行长时间对话。

由于 Gemini 1.5 Pro 是多语言的,同时在意义上是多模式的,能够理解图像、视频,以及从周二起还能理解音频流,除了文本。因此,这个模型也可以分析和比较跨不同语言的电视节目、电影、广播节目、电话会议录音等媒体内容。一百万个标记大约可以翻译成一个小时的视频或大约11个小时的音频。

多亏了其音频处理能力,Gemini 1.5 Pro也能为视频剪辑生成转录,不过这些转录的质量还有待评判。

在今年早些时候的一次预先录制的演示中,谷歌展示了Gemini 1.5 Pro搜索阿波罗11号登月直播的文字记录(大约有400页),寻找其中包含笑话的引用,然后找到影片画面中看起来类似于铅笔素描的场景。

谷歌表示,Gemini 1.5 Pro的早期用户,包括United Wholesale Mortgage、TBS和Replit,正在利用大的上下文窗口来完成跨房屋贷款核准、在媒体档案中自动标记元数据以及生成、解释和转换代码等任务。

Gemini 1.5 Pro并不会在一瞬间处理一百万个标记。在上述演示中,每次搜索需要20秒到1分钟的时间才能完成 - 比平均ChatGPT查询时间长得多。

谷歌此前表示延迟是一个关注的领域,并表示正在努力“优化”Gemini 1.5 Pro。

值得注意的是,Gemini 1.5 Pro正逐渐在谷歌公司的其他产品生态系统中推广,该公司周二宣布该模型(处于私人预览阶段)将为Code Assist提供新功能支持,Code Assist是谷歌的生成式AI编码辅助工具。谷歌表示,开发人员现在可以执行“大规模”更改,例如更新跨文件依赖关系和审查大量的代码。

推荐阅读

谷歌推出新的视频产品,可以利用人工智能辅助创建定制视频

2024-04-091967
Chat中文版

谷歌开源工具支持人工智能模型开发

2024-04-09440
Chat中文版

在这里现场观看Google Cloud Next主题演讲

2024-04-092771
Chat中文版

Google Cloud Next 2024: 迄今为止宣布的所有内容

2024-04-09616
Chat中文版

多元宇宙(Multiverse)这只学徒独角兽,收购Searchlight公司,将重点放在人工智能上

2024-04-092325
Chat中文版