为什么人工智能在拼写方面表现得如此糟糕?

AI7号2024-03-212940

Chat中文版

人工智能很容易通过SAT考试,击败国际象棋大师,像解决代码一样轻而易举。但让人工智能参加中学生的拼写比赛,它会比你能说"扩散"更快被淘汰。

尽管人工智能取得了许多进展,但它仍然不能拼写。如果你让文本图像生成器DALL-E为墨西哥餐厅创作菜单,你可能会看到一些诱人的菜品,比如“taao”,“burto”和“enchida”,淹没在其他无意义的文字中。

尽管ChatGPT也许能帮你写论文,但当你让它想出一个没有“A”或“E”字母的十个字母的单词时,它竟然给出了“balaclava”(面罩)。与此同时,当一位朋友尝试使用Instagram的人工智能生成一个标签,写着“新帖子”时,它生成的图形却看起来像是说了一些我们不允许在TechCrunch上重复的话,这可是一个家庭网站。

Chat中文版

“图像生成器在汽车和人脸等大型物体上的表现要比手指和手写字等小物体上好得多,”Lesan的联合创始人、DAIR研究所的研究员Asmelash Teka Hadgu说道。

图像和文本生成器背后的基础技术是不同的,但是这两种模型在拼写等细节方面有类似的困难。图像生成器通常使用扩散模型,从噪音中重新构建图像。至于文本生成器,大型语言模型(LLMs)可能看起来像人类大脑一样阅读和回应您的提示 - 但实际上它们使用复杂的数学来将提示的模式与其潜在空间中的模式进行匹配,让它可以继续模式并给出答案。

"Hagdu告诉TechCrunch说:“扩散模型是用于图像生成的最新算法类型,正在重建给定的输入。我们可以假设在图像上的文字只是一个非常非常小的部分,因此图像生成器学习覆盖更多这些像素的模式。”

这些算法的激励是再现类似训练数据中看到的东西,但它们并不天生知道我们认为理所当然的规则-比如“hello”并不是拼写为“heeelllooo”,人类手通常有五根手指。

马修·古兹迪亚尔是艾伯塔大学的人工智能研究员和助理教授,他说:“即使就在去年,所有这些模型在识别手指方面表现得很糟糕,这与文本的问题完全相同。它们在本地区域做得非常出色,所以如果你看到一个手上有六七个手指,你可能会说,‘哇,看起来像手指。’同样,对于生成的文本,你可能会说,看起来像‘H’,看起来像‘P’,但它们在将这些东西整体结构起来方面做得很糟糕。”

工程师们可以通过增加训练模型来改善这些问题,专门设计这些模型来教授人工智能如何看起来应该如何。但专家们并不预见这些拼写问题会迅速解决。

Chat中文版

“你可以想象做类似的事情——如果我们只是创造一大堆文本,他们可以训练一个模型来试图识别什么是好的,什么是坏的,这可能会稍微改善一点情况。但不幸的是,英语语言真的很复杂,”Guzdial告诉TechCrunch。当考虑到人工智能必须学习多少不同的语言才能运作时,问题变得更加复杂。

有些模型,比如Adobe Firefly,被向教导不要生成任何文本。如果你输入一些简单的内容,比如“餐馆菜单”或“带广告的广告牌”,你会得到一张空白的餐桌上的纸张图片,或者高速公路上的一块白色广告牌。但是如果你在提示中提供足够的细节,这些防护栏很容易被绕过。

“你可以将其想象成他们几乎像是在玩打地鼠游戏,就像,‘好吧,很多人抱怨我们的手 —— 我们会在下一个型号中添加一个专门处理手的新功能’,依此类推。”Guzdial说。“但是处理文本要困难得多。正因为如此,即使是ChatGPT也无法完全正确拼写。”

在Reddit、YouTube和X上,有一些人上传了视频,展示了ChatGPT在ACSII艺术中的拼写失败,ACSII艺术是一种早期的互联网艺术形式,使用文本字符来创建图像。在最近的一个视频中,被称为“提示工程英雄之旅”,有人费力地试图引导ChatGPT创建一个写着“本田”的ACSII艺术作品。最终他们成功了,但并不是没有奥德赛式的困难和磨难。

“我有一个假设,他们在培训中没有接触到很多ASCII艺术,”Hagdu说。“这是最简单的解释。”

但是从根本上说,低级的人工智能还是不理解字母是什么,即使它们能在几秒钟内写出十四行诗。

LLMs基于这种变压器架构,显然并不是真正读取文本。当输入提示时,它会被翻译成一种编码,”Guzdial说。“当它看到单词“the”时,它有一个关于“the”意义的编码,但它不知道“T”,“H”,“E”。

这就是为什么当你要求ChatGPT生成一个不含有“O”或“S”的八个字母的单词列表时,它的答案大约有一半是错误的。它实际上并不知道“O”或“S”是什么(尽管它可能能给你引用维基百科上字母的历史)。

尽管这些 DALL-E 生成的糟糕餐厅菜单的图像很有趣,但当涉及到辨别虚假信息时,AI 的缺陷却很有用。当我们试图确定一个可疑的图像是真实还是AI 生成时,我们可以通过查看街道标志、有文字的T恤、书页或者任何可能暴露图像合成来源的随机字母串来学到很多。而在这些模型变得更擅长制作手部之前,一个第六(或第七、第八)个手指也可能是一个暴露。

然而,古兹迪尔表示,如果我们仔细观察,人工智能犯错的不仅是手指和拼写。

“这些模型一直在关注这些小的地方问题 - 只是我们对其中一些特别敏感而已。”他说道。

Chat中文版

对于一般人来说,比如说,一个由人工智能生成的音乐商店的图片可能很容易让人相信。但是懂一点音乐的人可能看到同样的图片会注意到有些吉他有七根弦,或者钢琴上的黑白琴键间距不正确。

尽管这些人工智能模型的性能正在以惊人的速度提高,但这些工具仍然不可避免地会遇到类似问题,从而限制了技术的容量。

哈格杜说:“这是实实在在的进步,毫无疑问。但这项技术所受到的炒作实在是疯狂。”。

推荐阅读

微软真的很想谈论Copilot

2024-03-21130
Chat中文版

副驾驶获得自己的按键在微软的新Surface设备上

2024-03-211390
Chat中文版

TechCrunch Minute: 微软完成对Inflection AI联合创始人的重磅人工智能投资

2024-03-211751
Chat中文版

Astera Labs的首次公开募股涨幅达54%,显示出投资者对具有人工智能特色的科技的需求很高

2024-03-202735
Chat中文版

ServiceNow正通过构建、收购和合作相结合的方式发展人工智能技术

2024-03-201239
Chat中文版