人工智能行业对聊天机器人竞技场十分着迷,但它可能并非最佳基准。

AI7号2024-09-052065

Chat中文镜像

在过去的几个月里,像埃隆·马斯克这样的科技高管一直在吹捧他们公司的人工智能模型在一个特定基准测试——“聊天机器人竞技场”上的表现。

由一个名为 LMSYS 的非营利组织维护的聊天机器人竞技场已经成为行业内备受关注的事物。关于其模型排行榜更新的帖子在 Reddit 和 X 上获得了数百次的浏览和转发,LMSYS 的官方 X 账号拥有超过 54,000 名关注者。仅在去年,就有数百万人访问了该组织的网站。

不过,关于 Chatbot Arena 告诉我们这些模型到底有多“好”的能力,仍然存在一些悬而未决的问题。

在寻找新的基准

在我们深入探讨之前,让我们花点时间来了解一下 LMSYS 到底是什么,以及它是如何变得如此受欢迎的。

这个非营利组织去年 4 月才成立,是由卡内基梅隆大学、加州大学伯克利分校的 SkyLab 以及加州大学圣地亚哥分校的学生和教职员工牵头的一个项目。一些创始成员现在就职于谷歌 DeepMind、马斯克的 xAI 和英伟达;如今,LMSYS 主要由与 SkyLab 有关联的研究人员运营。

LMSYS 一开始并未打算创建一个热门的模型排行榜。该团队成立的使命是通过共同开发并开源模型(特别是像 OpenAI 的 ChatGPT 那样的生成式模型),让它们更易于获取。但在 LMSYS 成立后不久,其研究人员对人工智能基准测试的现状感到不满,认为创建自己的测试工具具有价值。

研究人员在 3 月发表的一篇技术论文中写道:“当前的基准测试未能充分满足最先进[模型]的需求,特别是在评估用户偏好方面。”“因此,迫切需要一个基于人类偏好的开放、实时评估平台,它能够更准确地反映现实世界的使用情况。”

事实上,正如我们之前所写,如今最常用的基准测试在捕捉普通人与模型的交互方式方面做得很差。这些基准测试所探究的许多技能——例如,解决博士水平的数学问题——对于大多数使用(比如)Claude 的人来说,很少会相关。

LMSYS 的创建者也有类似的感受,因此他们设计了一个替代方案:Chatbot Arena,这是一个众包基准,旨在捕捉模型的“细微”方面以及它们在开放式、真实世界任务中的表现。

聊天机器人竞技场允许网络上的任何人向两个随机选择的匿名模型提出一个(或多个)问题。一旦一个人同意服务条款,允许其数据用于 LMSYS 未来的研究、模型及相关项目,他们就可以从两个对决的模型中为自己喜欢的答案投票(他们也可以宣布平局或表示“两个都不好”),此时模型的身份将被揭晓。

研究人员在 3 月的论文中写道,这种流程产生了典型用户可能向任何生成模型提出的“各种各样”的问题。他们解释说:“有了这些数据,我们采用了一系列强大的统计技术[...],以尽可能可靠和高效地对模型进行排名估计。”

自 Chatbot Arena 推出以来,LMSYS 已在其测试工具中添加了数十个开放模型,并与穆罕默德·本·扎耶德人工智能大学(MBZUAI)等高校以及 OpenAI、谷歌、Anthropic、微软、Meta、Mistral 和 Hugging Face 等公司合作,使其模型可供测试。Chatbot Arena 现在拥有 100 多个模型,包括多模态模型(能够理解不仅仅是文本数据的模型),如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet。

超过一百万个提示和答案对已经通过这种方式提交并评估,产生了大量的排名数据。

偏见和缺乏透明度

在 3 月份的论文中,LMSYS 的创始人声称,Chatbot Arena 由用户贡献的问题“足够多样化”,可以作为一系列人工智能用例的基准。他们写道:“由于其独特的价值和开放性,Chatbot Arena 已成为被引用最多的模型排行榜之一。”

但这些结果究竟有多大的信息量呢?这还有待商榷。

非营利组织艾伦人工智能研究所的研究科学家林宇辰(Yuchen Lin)表示,LMSYS 在 Chatbot Arena 上对所评估的模型能力、知识和技能方面尚未做到完全透明。今年 3 月,LMSYS 发布了一个数据集 LMSYS-Chat-1M,其中包含了用户与 Chatbot Arena 上 25 个模型之间的 100 万次对话。但此后该数据集一直未更新。

林说:“评估不可重现,而且 LMSYS 发布的数据有限,这使得深入研究模型的局限性具有挑战性。”

就 LMSYS 详细说明其测试方法的程度而言,其研究人员在 3 月份的论文中表示,他们利用“高效采样算法”让模型相互竞争,“以加速排名的收敛,同时保持统计有效性”。他们写道,LMSYS 在刷新聊天机器人竞技场排名之前,每个模型大约收集 8000 张选票,通常在几天后达到这个阈值。

但林认为,投票没有考虑到人们发现模型产生幻觉的能力(或无能力),也没有考虑到他们偏好的差异,这使得他们的投票不可靠。例如,一些用户可能喜欢更长的、Markdown 格式的回答,而另一些用户可能更喜欢更简洁的回答。

这里的结果是,对于同一对答案,两个用户可能会给出相反的回答,而且这两种回答都同样有效——但这从根本上质疑了这种方法的价值。直到最近,LMSYS 才在 Chatbot Arena 中尝试控制模型回答的“风格”和“实质内容”。

林表示:“所收集的人类偏好数据没有考虑到这些细微的偏差,而且该平台没有区分‘A 明显优于 B’和‘A 只是略优于 B’。”“虽然后期处理可以减轻其中的一些偏差,但原始的人类偏好数据仍然存在噪声。”

伦敦玛丽女王大学专门研究人工智能和游戏设计的研究员迈克·库克(Mike Cook)同意林的评估。他补充说:“早在 1998 年你就可以运行《聊天机器人竞技场》,并且仍然会谈论排名的巨大变化或强大的聊天机器人,但它们会很糟糕。” 他指出,虽然《聊天机器人竞技场》被设定为一项实证测试,但它相当于对模型的相对评级。

悬在 Chatbot Arena 头顶上更成问题的偏见在于其用户群的当前构成。

林表示,由于该基准几乎完全是通过人工智能和科技行业圈子里的口口相传而流行起来的,所以不太可能吸引到非常具有代表性的人群。他的理论有一定的可信度,LMSYS-Chat-1M 数据集中的热门问题涉及编程、人工智能工具、软件漏洞及修复和应用程序设计——并非是你所期望非技术人员会询问的那类问题。

林说:“测试数据的分布可能无法准确反映目标市场中真实的人类用户情况。” “此外,该平台的评估过程在很大程度上是不可控的,主要依靠后期处理为每个查询贴上各种标签,然后利用这些标签来制定针对特定任务的评级。这种方法缺乏系统的严谨性,使得仅仅基于人类偏好来评估复杂的推理问题具有挑战性。”

库克指出,由于 Chatbot Arena 的用户是自行选择参与的——他们一开始就对测试模型感兴趣——所以他们可能不太热衷于进行压力测试或把模型推到极限。

库克说:“总的来说,这不是开展研究的好方式。评估人员提出一个问题,然后就哪个模型‘更好’进行投票——但 LMSYS 在任何地方都没有真正定义‘更好’。在这个基准测试中表现出色可能会让人们认为获胜的人工智能聊天机器人更人性化、更准确、更安全、更值得信赖等等——但这实际上并不意味着其中任何一项。”

LMSYS 正试图通过使用自动化系统——MT-Bench 和 Arena-Hard-Auto——来平衡这些偏差,这些系统利用模型本身(OpenAI 的 GPT-4 和 GPT-4 Turbo)对其他模型的回答质量进行排名。(LMSYS 将这些排名与投票一起公布)。但尽管 LMSYS 声称模型“与受控的和众包的人类偏好都很匹配”,但这个问题远未解决。

商业联系和数据共享

林说,LMSYS 不断增长的商业关系是对这些排名持保留态度的另一个原因。

林表示,一些像 OpenAI 这样通过 API 提供模型服务的供应商能够获取模型使用数据,如果他们愿意,他们可以利用这些数据来基本上“应试教学”。这使得在 LMSYS 自己的云端运行的开放、静态模型的测试过程可能不公平。

他补充道:“公司可以不断优化其模型,以更好地与 LMSYS 用户分布保持一致,这可能会导致不公平竞争和不太有意义的评估。”“通过 API 连接的商业模型可以访问所有用户输入数据,这让流量更大的公司具有优势。”

库克补充道:“LMSYS 所做的并非是鼓励新颖的人工智能研究之类的事情,而是鼓励开发者调整细微的细节,以在措辞上比竞争对手略胜一筹。”

LMSYS 也部分由一些组织赞助,其中之一是一家风险投资公司,该公司在人工智能竞赛中有所涉足。

谷歌的 Kaggle 数据科学平台已向 LMSYS 捐款,安德森·霍洛维茨(其投资包括 Mistral)和 Together AI 也是如此。谷歌的 Gemini 模型在聊天机器人竞技场中,Mistral 的和 Together 的也是。

LMSYS 在其网站上表示,它还依靠大学拨款和捐赠来支持其基础设施,而且其所有的赞助(包括硬件、云计算积分以及现金形式)都“没有附加条件”。但这些关系给人的印象是,LMSYS 并非完全公正,特别是在供应商越来越多地利用 Chatbot Arena 来为其模型造势的情况下。

LMSYS 未回应 TechCrunch 的采访请求。

一个更好的基准?

林认为,尽管存在缺陷,LMSYS 和 Chatbot Arena 提供了一项有价值的服务:实时洞察不同模型在实验室之外的表现。

林说:“Chatbot Arena 超越了针对多项选择基准进行优化的传统方法,这些基准往往已经饱和,且不能直接应用于现实场景。该基准提供了一个统一的平台,真实用户可以与多个模型进行交互,从而提供了更具动态和现实性的评估。”

但是——随着 LMSYS 不断为 Chatbot Arena 增加功能,比如更多的自动化评估——林认为该组织可以解决一些容易实现的目标来改进测试。

他认为,为了更“系统地”了解模型的优势和劣势,LMSYS 可以围绕不同的子主题(如线性代数)设计基准,每个子主题都有一组特定领域的任务。他说,这样能使 Chatbot Arena 的结果更具科学分量。

林表示:“虽然 Chatbot Arena 能够提供用户体验的一个概貌——尽管来自规模较小且可能不具代表性的用户群体——但它不应被视为衡量一个模型智能程度的明确标准。”“相反,将其更恰当地视为衡量用户满意度的工具,而非衡量人工智能进展的科学客观的标准,会更为合适。”