为什么RAG不能解决生成AI的幻觉问题?

AI7号2024-05-041706

Chat中文版

幻觉——基本上是生成式AI模型所说的谎言——对于希望将这项技术整合到业务中的企业来说是一个大问题。

由于模型没有真正的智能,只是根据私人模式预测单词、图片、语音、音乐和其他数据,它们有时会犯错误。非常严重的错误。最近《华尔街日报》的一篇报道中,一位消息来源回顾了微软生成的人工智能发明了会议参与者,并暗示会议电话讨论的主题实际上并没有在电话中讨论过。

正如我之前所写的,幻觉可能是当前基于变压器的模型架构中一个无法解决的问题。但是一些生成人工智能供应商表示,可以通过一种叫做检索增强生成(RAG)的技术方法,或多或少地消除这种问题。

以下是一家名为Squirro的供应商的推介方式:

这里有一个类似的推介来自SiftHub:

RAG是由数据科学家帕特里克·刘易斯(Patrick Lewis)首创的,他是Meta和伦敦大学学院的研究员,也是提出这个术语的2020年论文的主要作者。在模型上应用RAG,可以检索可能与问题相关的文档,例如一个关于超级碗的维基百科页面,使用基本上是关键词搜索,然后要求模型生成基于这个额外背景的答案。

当你与ChatGPT或Llama等生成式AI模型互动并提问时,默认情况下模型会从其“参数化记忆”中回答,即从在网络海量数据训练中存储在其参数中的知识,”非营利性Allen Institute的AI重点研究部门AI2的研究科学家David Wadden解释道,“但就像如果你面前有参考资料[如一本书或文件],你可能会给出更准确的答案一样,对于一些情况模型也是如此。”

文本生成归因(RAG)无疑是有用的 — 它允许将模型生成的内容归因于检索的文档以验证其真实性(并且,作为额外的好处,避免潜在侵犯版权的机械复制)。 RAG还让那些不希望他们的文档用于训练模型的企业(比如,受到高度监管的医疗和法律行业公司)以更安全和短暂的方式允许模型利用这些文档。

但是RAG肯定无法阻止模型出现幻觉。许多供应商忽略了它的限制。

瓦登表示,RAG 在“知识密集型”场景中最为有效,用户需要使用一个模型来解决“信息需求” — 例如,找出去年谁赢得了超级碗。 在这些场景中,回答问题的文档很可能包含与问题相同的许多关键词(例如,“超级碗”,“去年”),因此通过关键词搜索很容易找到。

在进行“需要理性思考”的任务,比如编码和数学等方面,情况就变得更加复杂。在基于关键词的搜索查询中,更难以明确指定需要回答请求所需的概念,更不用说确定哪些文档可能是相关的。

即使是基本问题,模型也会被文档中的无关内容“分心”,特别是在答案不明显的长篇文档中。或者,出于尚不清楚的原因,它们可能简单地忽视检索到的文档内容,选择依赖自己的参数记忆。

RAG在大规模应用方面,所需硬件成本也很昂贵。

这是因为检索的文件,无论是从网络、内部数据库还是其他地方,都必须暂时存储在内存中,以便模型可以参考它们。另一个开销是为了增加的上下文内容而进行的计算,模型在生成响应之前必须处理这些内容。对于一种因其基本操作所需的计算量和电力而臭名昭著的技术来说,这是一个需要认真考虑的问题。

这并不意味着RAG就无法改进。Wadden指出了许多正在进行的努力,训练模型更好地利用RAG检索到的文件。

一些努力涉及可以“决定”何时利用文档的模型,或者如果认为不必要,可以选择不进行检索的模型。其他专注于更有效地索引大规模数据集的文档,并通过改进文档的更好表示方式来提高搜索效果——这些表示方式超越关键词。

Wadden说:“我们在根据关键词检索文档方面做得很好,但在根据更抽象的概念来检索文档方面则做得不太好,比如解决数学问题所需的证明技巧。需要进行研究来构建文档表示和搜索技术,能够识别与更抽象生成任务相关的文档。我认为目前这在很大程度上还是一个开放性问题。”

因此,RAG能帮助减少模型的幻觉,但并不是解决所有AI幻觉问题的答案。警惕任何试图声称否则的供应商。