大多数人工智能基准测试告诉我们很少的原因是什么？

Chat中文版

周二，初创公司Anthropic发布了一系列生成式AI模型，声称其性能达到行业最佳水平。仅仅几天后，竞争对手Inflection AI推出了一款模型，声称它接近匹敌一些最优秀的模型，包括OpenAI的GPT-4。

Anthropic和Inflection绝不是第一家声称他们的模型在某些客观指标上已经超越竞争对手的AI公司。谷歌在发布Gemini模型时也提出了同样的观点，OpenAI则称GPT-4及其前任，如GPT-3、GPT-2和GPT-1也是如此。这样的例子还有很多。

但是他们说的指标是什么？当供应商说一个模型实现了最先进的性能或质量，具体是指什么？更重要的是：一个在技术上比其他模型表现更好的模型，是否在实际中有明显的改进？

对于最后那个问题，可能性不大。

AI公司用来量化模型优势和劣势的基准问题所在。

如今，用于AI模型的最常用基准 — 特别是像OpenAI的ChatGPT和Anthropic的Claude这样的聊天机器人的模型 — 在捕捉受测试模型与普通人互动方式方面表现不佳。例如，Anthropic在最近的公告中引用的一个基准是GPQA（一个研究生水平的谷歌抗“忙”的问答基准），其中包含数百个博士水平的生物学、物理学和化学问题 — 然而，大多数人使用聊天机器人来回复电子邮件、撰写求职信和谈论自己的感受。

艾伦人工智能研究所的科学家杰西·多奇表示，人工智能行业已经出现了“评估危机”。

在接受TechCrunch采访时，道奇表示：“基准测试通常是静态的，主要着眼于评估单一能力，比如一个模型在某一领域的准确性，或者解决数学推理多项选择题的能力。”“很多用于评估的基准测试已经有三年以上的历史了，那时候人工智能系统主要只是用于研究，并没有太多真实用户。此外，人们以多种方式使用生成式人工智能，他们非常有创意。”

并不是说最常用的基准完全没有用处。毫无疑问，有人确实在向ChatGPT提问博士级别的数学问题。然而，随着生成式人工智能模型越来越定位为大众市场的“万能”系统，旧的基准变得不太适用。

康奈尔大学从事人工智能和伦理研究的博士后研究员大卫·威德（David Widder）指出，许多常见基准测试所测试的技能——从解决小学水平的数学问题到识别句子是否包含时代错误——对大多数用户来说永远不会相关。

Widder告诉TechCrunch：“早期人工智能系统通常是为了解决特定环境下的问题（如医疗人工智能专家系统），使得对于在该特定环境中表现良好的要素有更深入的理解成为可能。随着系统越来越被视为‘通用目的’，这种可能性就变得越来越少，因此我们越来越多地看到对模型在不同领域的各种基准上进行测试的重点。”

在与使用案例不符的情况下，人们还有疑问，一些基准测试是否能正确地衡量它们所声称要衡量的东西。

对于 HellaSwag 的分析表明，这个旨在评估模型常识推理能力的测试中，超过三分之一的问题存在拼写错误和“荒谬”的表达。另外，MMLU（指“大规模多任务语言理解”），这个被谷歌、OpenAI 和 Anthropic 等厂商用来证明其模型可以通过逻辑问题推理的基准测试，提出了可以通过死记硬背解决的问题。

“像MMLU这样的基准测试更多地是关于记忆和将两个关键词联系在一起，” Widder 表示。“我可以很快找到相关的文章并回答问题，但这并不意味着我能理解因果机制，或者能够利用对这种因果机制的理解来实际推理并解决在意想不到的情境下的新问题。一个模型也不能。”

基准已经失效了。但它们能修复吗？

道奇认为是这样 - 需要更多的人类参与。

她说：“在这里，正确的前进道路是结合评估基准和人工评估，促使一个模型使用真实用户查询，然后雇佣一个人评定回复的好坏。”

对于维德，他并不太乐观地认为，即使对于那些明显错误进行了修复，比如拼写错误，现在的基准标准也无法提高到足以对绝大多数生成式人工智能模型的用户具有信息价值的程度。相反，他认为模型的测试应该主要关注这些模型的下游影响，以及这些影响，无论是好是坏，对受影响者是否被认为是可取的。

他说：“我会问我们希望AI模型能够用于哪些具体的环境目标，并评估它们在这些环境中是否成功或已经成功。希望这个过程也涉及评估我们是否应该在这些环境中使用AI技术。”

推荐阅读

苹果 M3 MacBook Air 评测：仍然是大多数人最好的 Mac 选择

在我们继续之前，有一个问题：什么是人工智能计算机？仅仅是执行人工智能任务的能力吗？还是本地运行LLMs？还是更深层次的东西？任何能够运行任何形式人工智能/机器学习的计算机基本上都是人工智能计算机吗？这是一个关于简单问题 [...]

2024-03-07434

我们测试了Anthropic的新聊天机器人，但感觉有点失望

本周，Anthropic发布了一系列模型——Claude 3，该公司得到了谷歌、亚马逊和一众风险投资商和天使投资者的支持。Anthropic声称在各种基准测试中，Claude 3比OpenAI的GPT-4表现更好。没有理由怀疑Anthropic的说法。但我们在TechCrunch认为，结果...

2024-03-071800

Turnitin在今年早些时候裁员，CEO预测人工智能将使其能够减少员工人数

人们担心人工智能的发展将导致失业，但很少有公司的首席执行官公开承认人工智能将帮助减少他们的员工人数。Turnitin是一家查重检测公司，其首席执行官克里斯·卡伦去年警告说，在18个月内，他的公司将能够减少20%的员工人数，因为...

2024-03-072387

Brevian 是一个用于构建人工智能代理的无代码企业平台

总部位于Sunnyvale的Brevian希望让商业用户更容易地构建定制的人工智能代理。目前，该公司主要关注支持团队和安全分析师 - 这些领域中用例和训练集都被明确定义 - 但计划随着时间推移扩展到其他领域。该公司即将从隐蔽状态中走出来...

2024-03-07882

Zama的同态加密技术使其估值接近4亿美元，获得7300万美元资金

同态加密是一种复杂的技术，它利用加密算法在数据在网络和第三方之间传输时保持安全性，但由于目前这种复杂性使得其效果显著，却也使其变得缓慢且难以广泛使用，因此其大规模适用和采纳仍然存在难题。但在一个 […] 的世界中，这种技术可能会发挥更大的作用。

2024-03-07214