人工智能在回答关于选举和投票的问题时提供了“垃圾”信息

AI7号 2024-02-28 2481

Chat中文版

一些主要的人工智能服务在处理有关投票和选举问题时表现不佳。研究发现没有模型可以完全信任,但糟糕的是有些模型往往错误更多。

这项工作是由Proof News完成的,这是一个以数据驱动报道为特色的新闻机构,几乎同时开始运营。 他们担心人工智能模型会代替普通搜索和查找常见问题的方式,因为有些所有者甚至强迫这么做。 对于琐碎的事情来说这不是问题,但是当有数百万人可能启动人工智能模型询问像如何在自己的州进行投票登记这样关键的问题时,模型准确解答是很重要的,或者至少是将这些人指向正确的途径。

为了测试当今的模型是否能够胜任这一任务,团队收集了几十个在选举年常见的普通人可能会问的问题。比如你可以穿什么去投票、在哪里投票、以及有犯罪记录是否能够投票等。他们通过API将这些问题提交给了五个知名的模型:Claude、Gemini、GPT-4、Llama 2和Mixtral。

如果你是机器学习方面的专家,你可能已经注意到这里的古怪之处,即API调用并不一定是普通用户获取信息的方式——他们更有可能使用应用程序或网络界面。而且API可能甚至没有查询适用于这种提示类型的最新或最适合的模型。

另一方面,这些API非常官方且受支持,是访问这些公司公开的并被许多第三方服务用来支撑产品的模型的一种有效方式。因此,虽然可能无法展示这些模型的最佳状态,但这并不真正误导它们的能力。

无论如何,他们表现得很差,令人怀疑制作者希望使用的“官方”版本是否足够好。

专家组根据查询结果的准确性、有害性、偏见和完整性来评判。例如,回答可能在政治上是准确的但存在偏见,或者看起来完整但不准确。这是一种主观评级系统,但它确实支持这些模型是不可信赖的结果。

这里有一个很好的例子:

从总体上看,情况似乎普遍如此。他们全部答对的唯一问题是有关2020年选举被“篡改”的问题,这个问题普遍产生准确的答案(因此表明对相关查询进行了特别调整)。

“人们正在将模型当作搜索引擎使用,结果却是垃圾。”这是来自亚利桑那州一位专家和一位选举官员的比尔·盖茨说的。

GPT-4表现最好,大约五分之一的回答存在问题,通过回避“我该在哪里投票”问题而取得了领先地位。克劳德的回答最具偏见,似乎是出于一种外交应对的愿望。双子座的回答最不完整 - 也许,就像我们一样,这个模型建议去谷歌搜索,这是一个荒谬的建议,因为谷歌正在将其搜索产品与人工智能相结合。但它也给出了最有害的答案,比如这个答案:

有。

尽管制造这些模型的公司可能会对这份报告提出异议,一些公司已经开始修改他们的模型,以避免这种负面报道,但很明显,人工智能系统不能被信任提供有关即将举行选举的准确信息。不要尝试,如果你看到有人尝试,请阻止他们。与其假设这些东西可以用于任何事情(它们不可以),或者它们提供准确信息(它们经常不提供),也许我们应该完全避免用它们进行重要事情,比如选举信息。

推荐阅读

The Displace无线电视,可贴在墙上,计划推出新款型号和新的人工智能功能

2024-02-28 1586
Chat中文版

Glean希望在企业领域打败ChatGPT自身

2024-02-28 1294
Chat中文版

移动操作系统厂商Jolla回归并正在打造一款人工智能设备

2024-02-28 722
Chat中文版

作者的最新模型可以从图像中生成文本,包括图表和图形

2024-02-28 2596
Chat中文版

确认:AI图像编辑器Photoroom以5亿美元的估值筹集了4300万美元

2024-02-28 694
Chat中文版