微软声称其新工具能够纠正人工智能的幻觉,但专家建议谨慎对待。

AI7号2024-09-242117

Chat中文镜像

人工智能是出了名的爱说谎,而微软现在表示已找到解决办法。可以理解的是,这会令人惊讶,但有理由持怀疑态度。

微软今日公布了“Correction(纠错)”服务,该服务试图自动修正事实性错误的人工智能生成文本。“Correction”首先会标记出可能有误的文本——比如,一份公司季度财报电话会议的摘要中可能错误地归属了引语——然后通过将该文本与真实来源(例如,文字记录)进行对比来进行事实核查。

纠正:作为微软 Azure AI 内容安全 API 的一部分可用,它可以与任何生成文本的 AI 模型一起使用,包括 Meta 的 Llama 和 OpenAI 的 GPT-4。 需要说明的是,您提供的“GPT-4o”可能有误,常见的是“GPT-4”。

微软发言人告诉 TechCrunch:“纠偏由一个新流程提供支持,该流程利用小型语言模型和大型语言模型,使输出结果与基础文档保持一致。”“我们希望这一新功能能够为诸如医学等领域的生成式人工智能的构建者和用户提供支持,在这些领域中,应用程序开发者认为回答的准确性至关重要。”

今年夏天,谷歌在其人工智能开发平台 Vertex AI 中推出了一项类似的功能,允许客户通过使用来自第三方提供商的数据、他们自己的数据集或谷歌搜索的数据来“基础训练”模型。

但专家警告称,这些应对方法并不能解决幻觉产生的根本原因。

华盛顿大学研究新兴技术伦理影响的博士候选人奥斯·凯斯(Os Keyes)表示:“试图从生成式人工智能中消除幻觉,就像试图从水中消除氢一样。这是该技术运作方式的一个关键组成部分。”

文本生成模型会产生幻觉,因为它们实际上什么都“不知道”。它们是统计系统,能够识别一系列单词中的模式,并根据其接受训练的无数示例来预测接下来会出现哪些单词。

由此可见,模型给出的回答并非答案,而仅仅是对如果某个问题出现在训练集中会如何回答的预测。因此,模型往往在真实性方面比较随意。一项研究发现,OpenAI 的 ChatGPT 回答医学问题时,错误率高达一半。

微软的解决方案是一对相互参照、类似于文案编辑的元模型,旨在突出并改写幻觉内容。

分类器模型会查找可能不正确、虚构或不相关的人工智能生成的文本片段(幻觉)。如果检测到幻觉,分类器会引入第二个模型,即语言模型,该模型会尝试根据指定的“基础文档”对幻觉进行纠正。

微软发言人表示:“纠错能够帮助应用程序开发者减少用户的不满以及潜在的声誉风险,从而显著提高人工智能生成内容的可靠性和可信度。”“需要注意的是,真实性检测并不能解决‘准确性’问题,而是有助于使生成式人工智能的输出与基础文档保持一致。”

凯斯对此表示怀疑。

他们说:“这可能会减少一些问题,但也会产生新的问题。毕竟,Correction 的幻觉检测库大概也有可能产生幻觉。”

当被要求提供有关校正模型的背景资料时,发言人指出了微软一个研究团队最近的一篇论文,其中描述了这些模型的预生产架构。但这篇论文遗漏了关键细节,比如用于训练模型的数据集有哪些。

玛丽女王大学专门研究人工智能的研究员迈克·库克(Mike Cook)认为,即使 Correction 如其宣传的那样有效,它也有可能加剧围绕人工智能的信任和可解释性问题。这项服务可能会发现一些错误,但也可能会让用户产生一种错误的安全感——认为模型比实际情况更经常地保持真实。

他说:“微软和 OpenAI 以及谷歌一样,造成了这样一个问题,即在模型经常出错的情况下却依赖它们。”“微软现在的所作所为是在更高层面上重蹈覆辙。假设这能让我们从 90%的安全性提升到 99%——问题从来都不在那 9%。它总是会出现在我们尚未检测到的 1%的错误中。”

库克补充说,微软捆绑“修正”功能的方式还存在一个愤世嫉俗的商业角度。该功能本身是免费的,但检测幻觉以便“修正”功能进行修订所需的“基础检测”每月仅免费提供多达 5000 条“文本记录”。超过这个数量后,每 1000 条文本记录需花费 38 美分。

微软当然面临着向客户和股东证明其人工智能投资是值得的压力。

仅在第二季度,这家科技巨头就投入了近 190 亿美元的资本支出和设备,主要用于人工智能相关领域。然而,该公司尚未从人工智能中获得显著收入。本周,一位华尔街分析师下调了该公司的股票评级,理由是对其长期的人工智能战略存在疑虑。

据《The Information》的一篇报道,由于性能和成本方面的担忧,许多早期采用者已经暂停部署微软的旗舰生成式人工智能平台——Microsoft 365 Copilot。例如,有一个客户在微软团队会议中使用 Copilot 时,据报道,该人工智能虚构了参会人员,并暗示通话涉及了一些实际上从未讨论过的主题。

毕马威(KPMG)的一项民意调查显示,准确性以及产生幻觉的可能性如今是企业在试用人工智能工具时最关心的问题。

库克表示:“如果这是一个正常的产品生命周期,生成式人工智能仍会处于学术研发阶段,人们会致力于改进它并了解其优缺点。”“然而,我们已经将其应用到了十几个行业。微软和其他公司让所有人都登上了他们令人兴奋的新火箭飞船,并且决定在前往目的地的途中建造起落架和降落伞。”