AI模型有自己偏爱的数字,因为它们认为自己是人类

AI7号2024-05-31458

Chat中文镜像

人工智能模型总是让我们感到惊讶,不仅仅是因为它们所能做到的,还因为它们所不能做到的,以及为什么。一个有趣的新行为既肤浅又揭示了这些系统的一些东西:它们像人类一样随机选取数字,也就是说,选得很糟糕。

但首先,这到底是什么意思呢?难道人们不能随机挑选数字吗?你又怎么能知道某人是否成功地这样做了呢?这实际上是我们人类一直存在的一个非常古老而且广为人知的局限性:我们过度考虑并误解随机性。

告诉一个人预测100次抛硬币,然后将其与实际100次抛硬币结果进行比较——你几乎总是可以区分它们,因为出人意料地,真实的抛硬币结果看起来不那么随机。通常会出现,例如,连续六七次正面或反面,这几乎是任何人预测的100次中都不会包括的。

当你让别人在0和100之间选一个数字时,情况是一样的。人们几乎永远不会选择1或100。5的倍数很少,重复数字如66和99也不常见。对我们来说,这些选择不像是“随机”的,因为它们代表了某种特质:小、大、独特。相反,我们经常选择以7结尾的数字,通常是中间的某个位置。

心理学中有无数这种可预测性的例子。但当人工智能也做同样的事情时,这并不会让它变得更不奇怪。

是的,Gramener公司的一些好奇工程师进行了一项非正式但仍然引人入胜的实验,他们简单地要求几个主要的LLM聊天机器人在0到100之间随机选择一个数字。

读者,结果并不是随机的。

所有三个经过测试的模型都有一个“偏爱”的数字,在最确定性模式下,这个数字总是它们的答案,但即使在较高的“温度”下,这个数字出现的频率也最高。在这种设置下,模型的结果变化性会增加。

OpenAI的GPT-3.5 Turbo非常喜欢47。以前它喜欢42——这个数字当然是由道格拉斯·亚当斯在《银河系漫游指南》中作为生命、宇宙和一切的答案而出名。

Anthropic的Claude 3 Haiku 到了42. Gemini喜欢72。

更有趣的是,所有三个模型在选择其他数字时都表现出类似于人类的偏见,即使在高温下也是如此。

大家都倾向于避免低和高数字;克劳德从未超过87或低于27,即使这些都是异常值。双位数被严格地避免:没有33、55或66,但77出现了(以7结尾)。几乎没有圆整数,尽管双子座曾经在最高温度时疯狂地选择了0。

为什么会这样?AI不是人类!他们为什么会在乎“看起来”随机?难道他们最终已经实现了意识,这是他们展现的方式吗?

不。答案通常情况下是我们过于拟人化了。这些模型并不在乎是什么,也不在乎什么不是随机的。它们不知道什么是“随机性”!它们回答这个问题的方式和其他问题一样:通过查看它们的训练数据,重复在“随机选择一个数字”这个问题之后最经常出现的回答。它出现的次数越多,模型就重复这个答案的次数也就越多。

在他们的训练数据中,如果几乎没有人以那种方式回答,他们会在哪里看到100呢?对于所有的人工智能模型来说,100不是一个可以接受的答案。因为它没有实际的推理能力,也不完全理解数字,它只能像一个随机的鹦鹉一样回答。同样地,它们往往无法完成简单的算术运算,比如将几个数字相乘;毕竟,“112*894*32=3,204,096”这样的短语有多大可能出现在它们的训练数据中呢?尽管更新的模型会意识到数学问题的存在并将其传递给子程序。

这是一个关于大型语言模型(LLM)习惯和它们所展现出的人性的教训。在与这些系统的每一次互动中,人们必须铭记它们被训练成像人一样行事,即使这并非初衷。这就是为什么伪人道主义如此难以避免或预防的原因。

在标题中,我写到这些模型“认为它们是人”,但这有点误导。正如我们经常指出的那样,它们根本不会思考。但在它们的回答中,它们始终在模仿人类,根本不需要知道或思考。无论你是要求它提供鹰嘴豆沙拉的食谱、投资建议,还是一个随机数字,过程都是一样的。结果感觉人类,因为它们是人类,直接从人类制作的内容中提取并重新组合,为了你的方便,当然也为了大型人工智能的利润。