为什么人工智能不会拼写“strawberry”（草莓）

Chat中文镜像

在单词“strawberry”中，字母“r”出现了多少次？据像 GPT-4o 和 Claude 这样强大的人工智能产品所说，答案是两次。

大型语言模型（LLMs）能够在数秒内撰写文章和解答方程式。它们能比人类翻开一本书的速度更快地综合数太字节的数据。然而，这些看似无所不知的人工智能有时会失败得极为惨重，以至于这种失误变成了热门的网络梗图，而我们都暗自庆幸，也许在不得不向新的人工智能霸主低头之前，我们还有时间。

大型语言模型无法理解字母和音节的概念，这表明了一个我们经常遗忘的更大的真相：这些东西没有大脑。它们不像我们那样思考。它们不是人类，甚至也不是特别像人类。

大多数大型语言模型都是基于 Transformer 构建的，这是一种深度学习架构。Transformer 模型将文本分解为标记（token），这些标记可以是完整的单词、音节或字母，具体取决于模型。

艾伯塔大学的人工智能研究员兼助理教授马修·古兹迪尔（Matthew Guzdial）告诉 TechCrunch：“大型语言模型基于这种 Transformer 架构，值得注意的是，它实际上并不是在阅读文本。当您输入提示时，它会被转换为一种编码。当它看到‘the’这个词时，它有一种关于‘the’含义的编码，但它不知道‘T’、‘H’、‘E’。”

这是因为这些转换器无法高效地接收或输出实际文本。相反，文本会被转换为其自身的数字表示形式，然后结合上下文来帮助人工智能生成合理的响应。换句话说，人工智能可能知道“straw”（稻草）和“berry”（浆果）组成了“strawberry”（草莓），但它可能不理解“strawberry”是由字母“s”“t”“r”“a”“w”“b”“e”“r”“r”和“y”按特定顺序组成的。因此，它无法告诉你“strawberry”这个单词中有多少个字母——更不用说有多少个“r”了。

这不是一个容易解决的问题，因为它嵌入到了使这些大型语言模型运作的架构之中。

TechCrunch 的凯尔·威格斯（Kyle Wiggers）上个月深入研究了这个问题，并与东北大学研究大型语言模型可解释性的博士生谢里丹·福希特（Sheridan Feucht）进行了交谈。

福希特告诉 TechCrunch：“对于语言模型来说，究竟什么才算是一个‘词’，这个问题有点难以回避。即使我们让人类专家就一个完美的标记词汇达成一致，模型可能仍然会发现将事物进一步‘分块’是有用的。我猜由于这种模糊性，不存在完美的分词器。”

随着大型语言模型学习更多的语言，这个问题变得更加复杂。例如，某些标记化方法可能假定句子中的空格总是在一个新单词之前，但许多语言，如中文、日语、泰语、老挝语、韩语、高棉语等并不使用空格来分隔单词。谷歌 DeepMind 的人工智能研究员 Yennie Jun 在 2023 年的一项研究中发现，某些语言传达相同的意思所需的标记数量是英语的多达 10 倍。

福希特说：“或许最好是让模型直接查看字符，而不强制进行标记化，但目前对于变形器来说，这在计算上是不可行的。”

像 Midjourney 和 DALL-E 这样的图像生成器并不使用像 ChatGPT 这样的文本生成器所基于的 Transformer 架构。相反，图像生成器通常使用扩散模型，该模型从噪声中重建图像。扩散模型是在大型图像数据库上进行训练的，并且它们被激励着试图重新创建类似于从训练数据中学到的东西。

Lesan 的联合创始人、DAIR 研究所的研究员阿斯梅拉什·特卡·哈德古（Asmelash Teka Hadgu）告诉 TechCrunch：“图像生成器在汽车和人脸等人工制品上的表现往往要好得多，而在手指和手写等较小的事物上表现则较差。”

这可能是因为这些较小的细节在训练集中不像树木通常有绿叶这样的概念那样显著。不过，扩散模型的问题可能比困扰转换器的问题更容易解决。例如，一些图像生成器通过对更多真实人类手部的图像进行训练，在描绘手部方面有所改进。

古兹迪尔解释道：“就在去年，所有这些模型在识别手指方面都非常糟糕，这与处理文本时的问题如出一辙。它们在局部识别方面做得越来越好，所以如果你看到一只手上有六七个手指，你可能会说，‘哦，哇，那看起来像根手指。’同样，对于生成的文本，你可能会说，那个看起来像个‘H’，那个看起来像个‘P’，但它们在将这些整体内容组合在一起的结构处理上非常糟糕。”

这就是为什么，如果你让一个人工智能图像生成器为一家墨西哥餐厅创建菜单，你可能会得到像“玉米饼”这样正常的菜品，但你更有可能会发现像“Tamilos”“Enchidaa”和“Burhiltos”这样的菜品。

随着这些关于拼写“草莓”的梗在互联网上传播开来，OpenAI 正在研发一款代号为“草莓”的新人工智能产品，据说它在推理方面应该更加擅长。大型语言模型的发展受到了限制，原因在于世界上根本没有足够的训练数据来让像 ChatGPT 这样的产品更加准确。但据报道，“草莓”能够生成准确的合成数据，以使 OpenAI 的大型语言模型变得更出色。据 The Information 报道，“草莓”能够解开《纽约时报》的 Connections 字谜，解开这类字谜需要创造性思维和模式识别能力，而且它还能解出以前没见过的数学方程。

与此同时，谷歌 DeepMind 最近推出了 AlphaProof 和 AlphaGeometry 2，这是专为形式数学推理设计的人工智能系统。谷歌表示，这两个系统解决了国际数学奥林匹克竞赛六道题中的四道，这一成绩足以在这场著名的竞赛中获得银牌。

有点搞笑的是，关于人工智能拼不出“草莓”这个词的梗正在流传，与此同时有关 OpenAI 的“草莓”的报道也出现了。但 OpenAI 的首席执行官山姆·奥特曼抓住机会向我们展示，他的园子里有相当可观的草莓产量。