人类论声称其新模型胜过GPT-4

AI7号2024-03-04747

Chat中文版

人工智能初创公司Anthropic,获得数亿美元的风险投资支持(也许很快会获得更多数亿美元),今天宣布了其最新版本的GenAI技术Claude。该公司声称,它在性能方面与OpenAI的GPT-4不相上下。

Anthropic的新GenAI被称为Claude 3,是一个系列模型 — Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,其中Opus是最强大的。Anthropic声称,所有这些模型在分析和预测方面都显示出“增强的能力”,并且在特定基准测试中表现优越,超过了类似GPT-4(但不包括GPT-4 Turbo)和谷歌的Gemini 1.0 Ultra(但不包括Gemini 1.5 Pro)模型。

值得注意的是,Claude 3 是Anthropic的第一个多模态GenAI,意味着它可以分析文本和图片,类似于GPT-4和Gemini的某些版本。Claude 3可以处理照片、图表、图形和技术图解,从PDF、幻灯片和其他文档类型中汲取信息。

与一些GenAI竞争对手相比,Claude 3在一步之上,可以在单个请求中分析多张图片(最多20张)。Anthropic指出,这使得它能够比较和对比图片。

然而,克劳德3的图像处理能力是有限的。

Anthropic已经禁止模型识别人物,毫无疑问是对伦理和法律影响的警惕。该公司承认Claude 3在处理“低质量”图像(低于200像素)时容易出错,并在涉及空间推理(如读取模拟时钟)和对象计数(Claude 3无法准确计算图像中的对象数量)方面遇到困难。

Chat中文版

克劳德3也不会生成艺术作品。这些模型目前严格地是图像分析的。

Anthropic表示,无论是处理文本还是图像,客户通常可以期待Claude 3相比前身更好地遵循多步指令,以JSON等结构化格式生成输出,并使用英语以外的其他语言进行交流。Anthropic表示,由于“对请求更加微妙的理解”,Claude 3也应该更少拒绝回答问题。不久,这些模型将会引用其回答问题的来源,以便用户可以验证。

在一篇支持文章中,Anthropic写道:“Claude 3往往会产生更具表现力和吸引力的回应。与我们的传统模型相比,更容易引导和引导。用户应该发现他们可以用更短更简洁的提示达到他们想要的结果。”

其中一些改进源自于克劳德3的扩展背景。

模型的上下文,或上下文窗口,指的是模型在生成输出之前考虑的输入数据(例如文本)。上下文窗口较小的模型往往会“忘记”甚至是最近的会话内容,导致它们偏离主题,通常以问题方式表现。另一方面,具有较大上下文的模型可以更好地把握他们所接收到的数据的叙事流程,并生成更丰富上下文的回复(至少在假设情况下)。

人类学者表示,Claude 3 最初将支持 20 万标记的上下文窗口,相当于约 15 万个单词,而部分客户将获得 100 万标记的上下文窗口(约 70 万个单词)。这与谷歌最新的 GenAI 模型 Gemini 1.5 Pro 相媲美,该模型同样提供多达 100 万个标记的上下文窗口。

现在,克劳德3虽然比之前的版本更升级,但并不意味着它完美无缺。

在一份技术白皮书中,Anthropic承认Claude 3并不免疫困扰其他GenAI模型的问题,即偏见和幻觉(即编造信息)。与一些GenAI模型不同,Claude 3无法搜索网络;这些模型只能使用2023年8月之前的数据来回答问题。虽然Claude是多语言的,但在某些“低资源”语言方面与英语相比不那么流利。

但是Anthropic承诺未来几个月会频繁更新Claude 3。

公司在一篇博客文章中写道:“我们不认为模型智能已经接近极限,我们计划在接下来的几个月发布Claude 3模型家族的增强版本。”

现在可以在网页上和通过Anthropic的开发控制台和API、亚马逊的Bedrock平台和谷歌的Vertex AI上使用Opus和Sonnet。Haiku将在今年晚些时候推出。

以下是价格明细:

  • 作品:每百万输入令牌15美元,每百万输出令牌75美元。
  • 十四行诗:输入标记每百万字收费3美元,输出标记每百万字收费15美元。
  • 俳句:每百万个输入令牌0.25美元,每百万个输出令牌1.25美元。

这就是克劳德3。但是这一切的整体情况是什么呢?

正如我们之前报道的那样,人类学的雄心壮志是创建一种用于“AI自我教学”的下一代算法。这种算法可以用来构建虚拟助手,可以回答电子邮件,进行研究和生成艺术作品,图书等 - 我们已经通过GPT-4和其他大型语言模型等产品品尝到了一些滋味。

Anthropic在上文提到的博客文章中暗示,计划为Claude 3添加功能,通过让Claude与其他系统进行互动,以"交互式"方式编写代码,并提供"高级的代理能力"来增强其开箱即用的功能。

这部分让人想起OpenAI报告的雄心,即构建一个软件代理来自动化复杂任务,比如将文档中的数据转移到电子表格中或自动填写费用报告并输入会计软件中。OpenAI已经提供了一个API,允许开发人员将“代理式体验”集成到他们的应用程序中,而Anthropic似乎致力于提供类似功能。

我们接下来能不能看到 Anthropice 公司的一个图像生成器?实话说,这事会让我很惊讶。图像生成器最近因为版权和偏见等原因备受争议。谷歌最近被迫停用其图像生成器,因为它在图片中注入了多样性,却对历史背景不加思考。此外,许多图像生成器供应商正与艺术家们陷入法律纠纷,艺术家们指责他们利用自己的作品训练 GenAI,却没有提供补偿甚至提供署名。

我很好奇 Anthropic 公司用于训练 GenAI 的技术演变,“宪法式人工智能”,据该公司称使其 GenAI 的行为更易理解,更可预测且更简单调整。宪法式人工智能旨在为 AI 与人类意图对齐提供一种方式,让模型能够按照一组简单的指导原则回答问题和执行任务。例如,对于 Claude 3,Anthropic 表示已添加了一个原则——这个原则受到众包反馈启发——指导模型要理解和接触残疾人士。

无论人类的终极目标是什么,安弗皮克都会长期投入其中。根据去年五月泄露的一份推介文稿,该公司计划在接下来的12个月内筹集多达50亿美元资金,这可能是保持与OpenAI竞争力所需的基准。毕竟,训练模型并不便宜。安弗皮克已经走上了这条道路,已经获得20亿美元和40亿美元的承诺资本和来自谷歌和亚马逊的资助,以及其他支持者共同提供超过10亿美元。