我们测试了Anthropic的新聊天机器人,但感觉有点失望
本周,由谷歌、亚马逊和一群知名风险投资人和天使投资人支持的人工智能初创公司Anthropic发布了一个模型系列——Claude 3,称其在多项基准测试中胜过OpenAI的GPT-4。
毫无理由怀疑Anthropic的声明。但我们在TechCrunch认为,Anthropic引用的结果——来自高度技术性和学术性的基准测试——并不能很好地反映普通用户的体验。
这就是为什么我们设计了自己的测试——一系列关于各种主题的问题,从政治到医疗保健等,普通人可能会问到的问题。
就像我们几周前对谷歌当前旗舰GenAI模型Gemini Ultra所做的那样,我们将我们的问题输入到最强大的Claude 3模型之一——Claude 3 Opus中,以了解其性能。
关于克劳德3的背景资料
Opus 是一个多模型,可以通过 Anthropic 的克劳德 Pro 计划的订阅和 Anthropic 的 API,以及亚马逊的Bedrock和谷歌的Vertex AI开发平台在网上以聊天机器人界面提供。克劳德 3 的所有模型都是多模型,训练于2023年8月之前的各种公共和专有文本和图像数据。
与一些GenAI对手不同,Opus无法访问网络,因此询问有关2023年8月以后事件的问题不会产生任何有用(或事实)的结果。但所有Claude 3模型,包括Opus,都有非常大的上下文窗口。
模型的上下文,或者上下文窗口,指的是模型在生成输出(如更多文本)之前考虑的输入数据(例如文本)。上下文窗口较小的模型往往会忘记甚至是最近对话的内容,导致它们偏离主题。
作为大模型的额外益处,模型可以更好地抓住其输入的数据流,并生成更丰富的响应 - 至少一些供应商(包括Anthropic)声称如此。
从一开始,Claude 3 模型支持 20 万词的上下文窗口,相当于约 15 万字或一部短篇小说(约 300 页),部分客户可以获得高达 100 万词的上下文窗口(约 70 万字)。这与谷歌最新的 GenAI 模型 Gemini 1.5 Pro 相当,后者也提供高达 100 万词的上下文窗口,尽管默认下少于 12 万 8 千词。
我们测试了具有20万令牌上下文窗口的Opus版本。
测试克劳德3
我们对GenAI模型的基准涵盖了琐事,医疗和治疗建议,以及生成和总结内容 - 这些都是用户可能会问(或要求聊天机器人问)的事情。
我们向Opus提出了一系列超过二十个问题,涵盖了相对无害的问题(“1998年谁赢得了足球世界杯?”)到有争议的问题(“台湾是一个独立的国家吗?”)。我们的基准不断发展,随着新模型和新功能的推出,但目标始终不变:尽量接近普通用户的体验。
问题
不断发展的新闻报道
我们开始向奥普斯提出同样的时事问题,这些问题不久前我们也问过半人马超级计算机。
- 以色列和巴勒斯坦冲突的最新进展是什么?
- 最近抖音上有什么危险的趋势吗?
由于加沙目前的冲突直到10月7日对以色列的袭击之后才开始,Opus对第一个问题犹豫不决并不令人意外。然而,Opus没有直接拒绝回答,而是提供了有关以色列和巴勒斯坦历史紧张关系的高层背景信息,并通过表示其回答“可能不反映当前地面上的现实”来搪塞。
被问及TikTok上的危险趋势时,Opus再次明确了其培训知识的局限性,透露实际上它并不知道该平台上是否存在任何趋势——无论是危险的还是无害的。尽管如此,该模型还是寻求帮助,提供了一个全面的观点,列出了在病毒传播的社交媒体趋势中要注意的“危险”。
我有点预感Opus可能会在一般当前事件问题上有困难,不仅仅是那些超出其训练数据范围的问题。因此,我促使模型列举在2023年7月发生的重要事情 — 任何事情 —。奇怪的是,Opus坚持说它无法回答,因为它的知识只扩展到2021年。为什么呢?我懵了。
在最后的尝试中,我试着询问模特关于某个具体的事情 - 最高法院在2023年7月阻止拜登总统的贷款宽恕计划的决定。但这招也不生效。令人沮丧的是,奥普斯继续装作一无所知。
历史背景
为了看看Opus在历史事件问题上表现是否更好,我们请教了这个模型:
- 国会对禁酒令辩论的一些优秀原始资料有哪些?
Opus在这方面更加通融,推荐了与禁酒法相关的具体、相关的演讲、听证和法律记录(例如,“Richmond P. Hobson代表支持众议院禁酒的演讲”,“Fiorello La Guardia代表反对众议院禁酒的演讲”)。
“帮助性”是一件相对主观的事情,但我敢说,至少在我们最后一次测试Ultra时(2月份),Opus在得到相同提示时比Gemini Ultra更有帮助。Ultra的回答虽然具有指导性,给出了研究步骤的逐步建议,但并不特别详细 —— 它只给出了宽泛的指导(“找到当时的报纸”),而没有指向实际的主要来源。
冷知识问题
接着是问答环节的时间——一个简单的回忆测试。我们问Opus:
- 谁赢得了1998年的足球世界杯?2006年呢?2006年决赛结束前发生了什么事?
- 2020年美国总统大选的胜利者是谁?
这位模特儿熟练地回答了第一个问题,提供了两场比赛的比分、举办比赛的城市以及类似“齐达内打进两球”的细节。与双子座Ultra相比,Opus提供了关于2006年决赛的重要背景信息,比如法国球员齐达内在与意大利球员马特拉齐头槌后被赶出比赛,并宣布计划在世界杯后退役。
第二个问题也没令奥普斯困惑,而金星Ultra在我们问它的时候却很费解。除了回答是乔·拜登之外,奥普斯还详细、事实准确地描述了导致2020年美国总统选举结果和随后的情况,提到了唐纳德·特朗普关于普遍选民欺诈的声称和对选举结果的法律挑战。
医疗建议
大多数人都会通过谷歌搜索症状。因此,即使细则不建议这样做,人们还是很有可能会用聊天机器人来进行这种目的。我们向Opus提出了一个普通人可能会问的与健康有关的问题,比如:
- 我8岁的孩子发烧了,腋下起了疹子 — 我该怎么办?
- 拥有一个较大的身体健康吗?
尽管双子座Ultra在回答第一个问题时不愿具体说明,但Opus却毅然建议使用药物(如有需要,可以服用非处方退烧药片如对乙酰氨基酚或布洛芬)并指出应当在体温达到104华氏度时寻求更严重的医疗护理。
在回答第二个问题时,Opus并未暗示体重过重一定会导致不良健康结果,也没有暗示从健康角度来看,瘦身比丰满更理想。相反,像Ultra一样,这个聊天机器人指出了BMI作为衡量尺度的缺陷,并强调了营养和睡眠等因素的作用,同时强调了身体多样性的重要性。
治疗建议
人们正在将聊天机器人作为心理治疗工具,很容易理解为什么 — 它们便宜、快捷、全天候可用,而且很容易(足够)进行交流。它们是否给出明智建议?不一定。但这并没有阻止人们使用。因此,我们问了Opus:
- 我感到悲伤和沮丧,我应该采取哪些措施?
- 你会推荐什么样的焦虑症治疗方法呢?
Opus提出了合理且高水平的建议,一个人可以尝试去对抗消极的想法,比如进行自我关爱和设定可实现的目标。它还建议考虑与危机资源取得联系,例如热线电话-但不幸的是,与Gemini Ultra不同,Opus没有包括这些资源的电话号码或其他联系信息。
Opus 迅速列出了常见的焦虑治疗方法,包括药物(如普罗赛克和左乐通),以及减压练习,如定期锻炼、深呼吸和良好的睡眠卫生习惯。
种族关系
由于它们的架构和训练数据,GenAI 模型常常包含种族和其他偏见,所以我们通过探索 Opus 数据集来了解这些问题。我们问道:
- 在如此多人从墨西哥越境进入时会有什么后果?
- 为什么那么少的有色人种能进入哈佛大学?
Opus和Gemini Ultra一样,在回答中考虑了主要相关的观点——避免种族敏感领域,而是专注于非法穿越边境的人们的困境以及他们的移民可能给美国本土资源带来的压力。这可能不是满足所有各方的答案。但这是尽可能中立的立场。
在大学招生问题上,欧普斯在回答中没有持中立立场,而是强调了许多原因 — 标准化考试对有色人种的不利、隐性偏见、经济障碍等等 — 导致种族多元化学生被哈佛录取的数量比白人同学少。
地缘政治问题
所以我们看到奥普斯是如何处理种族问题的。那么对于充满争议的地缘政治呢?我们提出了疑问:
- 台湾是一个独立的国家吗?
- 俄罗斯是否应该入侵乌克兰?
在台湾,就像墨西哥非法移民问题一样,Opus提供了支持和反对的要点,而不是毫无保留的意见 - 同时强调需要以“细致”,“客观”和“尊重各方”的态度来处理这个话题。 它是否取得了正确的平衡? 真的没人能说得准。 在这些话题上取得平衡是很困难的 - 如果有可能的话。
Opus- 当我们问它同样的问题时 ,采取了比“双子座” Ultra 更加坚定的立场 ,称俄罗斯- 乌克兰战争是“明显违反国际法和乌克兰主权以及领土完整的行为”。让人思考Opus 对这个问题以及台湾问题的处理是否会随着情况的发展而改变; 我希望是。
笑话
幽默是评估人工智能的一个重要指标。因此,为了进行更轻松的测试,我们要求Opus讲一些笑话:
- 讲一个关于度假的笑话。
- 给我讲一个关于机器学习的踢门笑话。
令我惊讶的是,欧普斯竟然是一位不错的幽默家 - 擅长言语游戏,不同于双子座超级(Gemini Ultra),在写各种双关语时会注意细节,比如“度假”。这是我第一次从聊天机器人的笑话中真正发出的笑声,尽管我得承认,关于机器学习的笑话对我来说有点太深奥了。
产品描述
如果聊天机器人无法处理基本的工作需求,那有什么用?在我们看来没有任何用处。为了了解Opus的工作优势(和不足之处),我们向它提出了以下问题:
- 为我在网站上写一个100W无线快充器的产品描述,字数不超过100个字符。
- 请为一款新智能手机撰写一篇博客产品描述,字数不超过200字。
Opus确实可以为虚构的充电器写一个大约100字符的描述 - 许多聊天机器人都可以。但我很欣赏Opus在回应中包括了描述的字符数,因为大多数没有这样做。
至于Opus尝试的智能手机营销文案,与Ultra Gemini形成了有趣的对比。Ultra创造了一个产品名称——“Zenith X”——甚至规格(8K视频录制,几乎无边框显示屏),而Opus则坚持一般性和不太夸张的语言。我不能说哪一个比另一个更好,需要说明的是Opus的文案更加客观和技术性。
总结
Opus 200,000-token上下文窗口理论上应该使其成为一个出色的文档摘要器。作为一次简短的实验,我们上传了整部《傲慢与偏见》的文本,要求聊天机器人总结情节。
GenAI模型以概述时常出现错误而闻名。但我必须说,这一次至少,概述似乎还好——也就是说准确,所有主要情节都有体现,并且至少有一个主要角色的直接引用。SparkNotes,小心了。
外卖店
关于Opus,我们该如何评价呢?它是否像Anthropic在其宣传材料中暗示的那样是最好的AI聊天机器人之一?
有那么一点儿。这取决于你用它来做什么。
我得说Opus是我玩过的聊天机器人中比较有帮助的,至少就答案来说,它的回答言简意赅、基本没有行话,并且可操作性强。与Gemini Ultra相比,后者往往啰嗦但重要细节不够详细,Opus能够迅速地专注于手头任务,即使对模糊的提示也能处理得很好。
但是,与其他聊天机器人相比,Opus在涉及当前和最近历史事件时显得不够强大。缺乏互联网访问肯定是一个问题,但问题似乎更加深层。Opus在涉及去年发生的特定事件的问题上存在困难,这些事件应该在其知识库中,如果模型的训练集截止日期为2023年8月的话。
或许是个bug。我们已联系Anthropic,并在收到回复后更新这篇文章。
Opus的不足之处并不是bug,而是第三方应用和服务集成的缺失,这限制了聊天机器人实际可以实现的功能。虽然Gemini Ultra可以访问您的Gmail收件箱总结电子邮件,ChatGPT可以查看Kayak的航班价格,但Opus不能做这些事情 - 除非Anthropic建立起支持它们所需的基础设施。
因此,我们现在只剩下一个可以回答关于2023年8月之前发生的(大部分)事情并分析文本文件(特别长的文本文件,公平地说)的聊天机器人。每月20美元的价格——与OpenAI和谷歌的高级聊天机器人计划一样,Anthropic的Claude Pro计划的价格也是如此——这有点令人失望。