大多数人工智能基准测试告诉我们很少的原因是什么?
周二,初创公司Anthropic发布了一系列生成式AI模型,声称其性能达到行业最佳水平。仅仅几天后,竞争对手Inflection AI推出了一款模型,声称它接近匹敌一些最优秀的模型,包括OpenAI的GPT-4。
Anthropic和Inflection绝不是第一家声称他们的模型在某些客观指标上已经超越竞争对手的AI公司。谷歌在发布Gemini模型时也提出了同样的观点,OpenAI则称GPT-4及其前任,如GPT-3、GPT-2和GPT-1也是如此。这样的例子还有很多。
但是他们说的指标是什么?当供应商说一个模型实现了最先进的性能或质量,具体是指什么?更重要的是:一个在技术上比其他模型表现更好的模型,是否在实际中有明显的改进?
对于最后那个问题,可能性不大。
AI公司用来量化模型优势和劣势的基准问题所在。
如今,用于AI模型的最常用基准 — 特别是像OpenAI的ChatGPT和Anthropic的Claude这样的聊天机器人的模型 — 在捕捉受测试模型与普通人互动方式方面表现不佳。例如,Anthropic在最近的公告中引用的一个基准是GPQA(一个研究生水平的谷歌抗“忙”的问答基准),其中包含数百个博士水平的生物学、物理学和化学问题 — 然而,大多数人使用聊天机器人来回复电子邮件、撰写求职信和谈论自己的感受。
艾伦人工智能研究所的科学家杰西·多奇表示,人工智能行业已经出现了“评估危机”。
在接受TechCrunch采访时,道奇表示:“基准测试通常是静态的,主要着眼于评估单一能力,比如一个模型在某一领域的准确性,或者解决数学推理多项选择题的能力。”“很多用于评估的基准测试已经有三年以上的历史了,那时候人工智能系统主要只是用于研究,并没有太多真实用户。此外,人们以多种方式使用生成式人工智能,他们非常有创意。”
并不是说最常用的基准完全没有用处。毫无疑问,有人确实在向ChatGPT提问博士级别的数学问题。然而,随着生成式人工智能模型越来越定位为大众市场的“万能”系统,旧的基准变得不太适用。
康奈尔大学从事人工智能和伦理研究的博士后研究员大卫·威德(David Widder)指出,许多常见基准测试所测试的技能——从解决小学水平的数学问题到识别句子是否包含时代错误——对大多数用户来说永远不会相关。
Widder告诉TechCrunch:“早期人工智能系统通常是为了解决特定环境下的问题(如医疗人工智能专家系统),使得对于在该特定环境中表现良好的要素有更深入的理解成为可能。随着系统越来越被视为‘通用目的’,这种可能性就变得越来越少,因此我们越来越多地看到对模型在不同领域的各种基准上进行测试的重点。”
在与使用案例不符的情况下,人们还有疑问,一些基准测试是否能正确地衡量它们所声称要衡量的东西。
对于 HellaSwag 的分析表明,这个旨在评估模型常识推理能力的测试中,超过三分之一的问题存在拼写错误和“荒谬”的表达。另外,MMLU(指“大规模多任务语言理解”),这个被谷歌、OpenAI 和 Anthropic 等厂商用来证明其模型可以通过逻辑问题推理的基准测试,提出了可以通过死记硬背解决的问题。
“像MMLU这样的基准测试更多地是关于记忆和将两个关键词联系在一起,” Widder 表示。“我可以很快找到相关的文章并回答问题,但这并不意味着我能理解因果机制,或者能够利用对这种因果机制的理解来实际推理并解决在意想不到的情境下的新问题。一个模型也不能。”
基准已经失效了。但它们能修复吗?
道奇认为是这样 - 需要更多的人类参与。
她说:“在这里,正确的前进道路是结合评估基准和人工评估,促使一个模型使用真实用户查询,然后雇佣一个人评定回复的好坏。”
对于维德,他并不太乐观地认为,即使对于那些明显错误进行了修复,比如拼写错误,现在的基准标准也无法提高到足以对绝大多数生成式人工智能模型的用户具有信息价值的程度。相反,他认为模型的测试应该主要关注这些模型的下游影响,以及这些影响,无论是好是坏,对受影响者是否被认为是可取的。
他说:“我会问我们希望AI模型能够用于哪些具体的环境目标,并评估它们在这些环境中是否成功或已经成功。希望这个过程也涉及评估我们是否应该在这些环境中使用AI技术。”