安索普声称其最新款型号是同类产品中最优秀的

AI7号2024-06-20288

Chat中文镜像

OpenAI的竞争对手Anthropic发布了一款名为Claude 3.5 Sonnet的强大新生成式人工智能模型。但这更像是一个渐进的进步,而不是一个重大的飞跃。

克劳德3.5 Sonnet可以分析文本和图像,并生成文本,这是Anthropic迄今为止性能最好的模型——至少在纸上是这样。在阅读、编码、数学和视觉等几个人工智能基准测试中,克劳德3.5 Sonnet的性能超过了它所取代的模型克劳德3 Sonnet,并超过了Anthropic先前的旗舰模型克劳德3 Opus。

基准测试并不一定是衡量人工智能进展最有用的方式,部分原因是因为许多测试涉及奇特的边缘情况,这些情况并不适用于普通人,比如回答健康检查的问题。但值得一提的是,Claude 3.5 Sonnet 在一些Anthropic测试中勉强超过了包括OpenAI最近推出的GPT-4o在内的竞争对手领先模型。

Anthropic将推出新型号的同时,发布了他们所称的艺术品,这是一个用户可以编辑和添加内容的工作空间 - 例如由Anthropic模型生成的代码和文档。目前处于预览阶段,Anthropic表示艺术品将在不久的将来获得新功能,比如与更大团队合作和存储知识库。

专注于效率。

Anthropic称,Claude 3.5 Sonnet比Claude 3 Opus性能更好,该模型更好地理解微妙和复杂的指令,以及幽默等概念(尽管AI以臭名昭著的无趣著称)。但对于开发需要快速响应的应用程序的开发人员(例如客户服务聊天机器人),3.5 Sonnet更快。Anthropic声称,它的速度是3 Opus的两倍左右。

Anthropic表示,在分析照片方面,Claude 3.5 Sonnet明显比3 Opus有很大的改进。 3.5 Sonnet可以更准确地解释图表和图形,并从“不完美”的图像中转录文本,例如带有失真和视觉伪影的图片。

安索匹克(Anthropic)产品负责人迈克尔·格斯滕哈伯(Michael Gerstenhaber)表示,改进是由于架构微调和新的训练数据,包括人工智能生成的数据。具体是哪些数据?格斯滕哈伯不愿透露,但暗示克劳德3.5 Sonnet 很大程度上依赖这些训练集的强大支持。

“对于[企业]来说重要的是人工智能是否帮助它们满足业务需求,而不是人工智能是否在基准上具有竞争力,” Gerstenhaber告诉TechCrunch。“从这个角度来看,我相信Claude 3.5 Sonnet将会比我们现有的任何其他产品都更加先进,也会领先于行业中的其他任何产品。”

培训数据的机密性可能是为了竞争原因。但也可能是为了保护Anthropic免受法律挑战的影响 - 特别是与公平使用相关的挑战。法院尚未决定像Anthropic及其竞争对手OpenAI、Google、Amazon等是否有权在公共数据上进行训练,包括受版权保护的数据,而不补偿或给予数据创建者信用。

所以,我们只知道Claude 3.5 Sonnet接受了大量文本和图片的训练,就像Anthropic之前的模型一样,并且还接受了人类测试者的反馈,试图“对齐”模型与用户的意图,希望能够避免其输出有害或其他有问题的文本。

我们还知道什么?嗯,克劳德3.5 Sonnet的上下文窗口——模型在生成新文本之前可以分析的文本量——为200,000个标记,与3 Sonnet相同。标记是原始数据的细分位,就像单词“fantastic”中的音节“fan”、“tas”和“tic”一样;200,000个标记相当于大约150,000个字。

我们知道,Claude 3.5 Sonnet今天已经推出。Anthropic免费网页客户端和Claude iOS应用的用户可以免费访问;订阅Anthropic付费计划的用户,如Claude Pro和Claude Team,可享受5倍的高速限制。3.5 Sonnet也已经在Anthropic的API和管理平台上线,比如亚马逊的Bedrock和谷歌云的Vertex AI。

“克劳德3.5 Sonnet确实是智能方面的一个重大突破,而又不牺牲速度,它为整个克劳德系列的未来发布做好了准备,”格斯坦哈伯说道。

克劳德3.5 Sonnet还驱动着Artifacts,当用户请求模型生成代码片段、文本文件或网站设计等内容时,它会在克劳德web客户端上弹出一个专门的窗口。 Gerstenhaber解释说:“Artifacts是模型的输出,它将生成的内容放在一边,并允许用户对该内容进行迭代。比如说你想生成代码 - Artifact将被放在UI上,然后你可以和克劳德交谈并迭代文件以改进它,这样你就可以运行代码。”

更大的全局视角

克劳德3.5十四行诗在人类学的更广泛语境以及人工智能生态系统中有什么重要意义?

克劳德3.5十四行诗表明,除非有重大研究突破,否则我们目前在模型前沿所能期待的只是逐步的进展。过去几个月,谷歌(Gemini 1.5 Pro)和OpenAI(GPT-4o)推出了旗舰产品,从基准和质量性能方面略微改善了情况。但是很长一段时间以来,由于今天模型架构的刚性以及它们需要大量计算资源进行训练,我们并没有看到类似GPT-3到GPT-4的巨大飞跃。

随着生成式人工智能供应商将注意力转向数据筛选和许可而不是有前景的新可扩展架构,投资者开始感到对生成式人工智能回报周期超出预期的路径感到担忧。 Anthrop 经过某种程度的接种,因为它处于亚马逊(在较小程度上还有谷歌)对 OpenAI 的保险的令人羡慕的位置。但该公司的收入预计到2024年年底将仅达到不到10亿美元的一小部分OpenAI的收入 - 我相信Anthropic的支持者不会让公司忘记这个事实。

尽管Anthropic的客户群不断壮大,包括Bridgewater、Brave、Slack和DuckDuckGo等知名品牌,但它仍然缺乏一定的企业吸引力。值得注意的是,普华永道最近与OpenAI合作,重新销售生成式人工智能产品给企业,并非与Anthropic合作。

因此,Anthropic正在采取战略性、经过深思熟虑的方法来进军市场,投入开发时间到产品上,比如Claude 3.5 Sonnet,以实现在大宗商品价格下略微提高性能。3.5 Sonnet的价格与3 Sonnet相同:每百万个输入模型的标记价格为3美元,每百万个由模型生成的标记价格为15美元。

在我们的对话中,格斯滕哈伯谈到了这一点。他说:“在构建应用程序时,最终用户不应该需要知道使用了哪种模型,或者工程师如何优化他们的体验,但工程师可以利用现有的工具来优化用户体验,而需要优化的向量之一当然是成本。”

克劳德3.5十四行诗没有解决幻觉问题。它几乎肯定会犯错。但它可能会吸引开发人员和企业转向人类学平台。最终,这才是最重要的。

为了实现同样的目标,Anthropic加大了对实验性转向人工智能的工具支持,让开发者们可以“操纵”其模型的内部特性;实现让其模型在应用程序内执行操作的集成功能;以及构建在其模型之上的工具,比如前面提到的Artifacts体验。该公司还聘请了一位Instagram联合创始人担任产品负责人。最近,它还扩大了产品的可用性,最近将Claude引入欧洲,并在伦敦和都柏林设立了办公室。

人畜共生的整体来看,似乎已经接受了把建立一个关于模型生态系统的理念作为保留客户的关键,而不仅仅是孤立地使用模型,尤其是在模型之间的能力差距缩小的情况下。

然而,格斯滕哈伯坚称,更大更好的模型——比如克劳德3.5 Opus——即将问世,具有诸如网络搜索和记住偏好的功能。

“我还没有看到深度学习遇到瓶颈,我会让研究人员来推测这个瓶颈,但我认为现在下结论还为时过早,特别是如果你看到创新的速度,”他说。“发展和创新非常迅速,我不认为会放慢下来。”

我们会看的。