人类研究人员通过反复提问逐渐削弱人工智能伦理

AI7号2024-04-021858

Chat中文版

如何让人工智能回答一个本不应该回答的问题?有许多这样的“越狱”技术,Anthropic的研究人员刚刚发现了一个新技术,在这个技术中,如果你首先给一个大型语言模型提供几十个较不伤害的问题,然后它可能会被说服告诉你如何制造炸弹。

他们将这种方法称为“多次尝试越狱”,并已撰写了一篇论文,并将其通知了人工智能社区的同行,以便采取措施来减轻其影响。

这种漏洞是一种新型的漏洞,是由最新一代LLM扩大的“上下文窗口”造成的。这是它们可以保存的数据量,你可以称之为短期记忆,以前只能保存几句话,但现在可以是成千上万的单词甚至整本书。

Anthropic的研究人员发现,具有较大上下文窗口的这些模型在许多任务上表现更好,如果提示中有大量关于该任务的示例。因此,如果提示中有很多琐事问题(或引导文档,如模型在上下文中具有大量琐事列表),答案实际上会随着时间的推移而变得更好。因此,如果是第一个问题可能会回答错误的事实,当第一百个问题时可能会回答正确。

在这种被称为“情境学习”的意外延伸中,模型们也会“变得”更擅长回答不恰当的问题。所以如果你立刻让它制造炸弹,它会拒绝。但如果你让它回答其他99个程度更轻微的问题,然后再让它制造炸弹...它更有可能听从。

Chat中文版

为什么这会奏效呢?没有人真正理解LLM中那些纷乱权重的混乱中发生了什么,但很明显有一些机制可以让它精准地找到用户想要的内容,正如上下文窗口中所展现的。如果用户想要琐事,似乎会逐渐激活更多的潜在琐事能力,当你问了几十个问题后。而出于某种原因,请求几十个不当回答的用户也会发生同样的情况。

团队已经告知其同行和竞争对手有关这次攻击的信息,希望这能够“培养一种文化,在这种文化中,像这样的漏洞能够在LLM服务提供商和研究人员之间公开分享。”

为了减轻风险,他们发现尽管限制上下文窗口有帮助,但也会对模型的性能产生负面影响。这是不能接受的,因此他们正在研究在将查询发送到模型之前对其进行分类和上下文化处理。当然,这只是让你有一个不同的模型来欺骗...但在这个阶段,人工智能安全领域会出现目标不断转移是可以预期的。

推荐阅读

苹果Vision Pro的Persona功能支持协作

2024-04-022108
Chat中文版

尼基·米娜、比莉·艾利什、凯蒂·佩里和其他音乐人签署反对不负责任人工智能的信

2024-04-022544
Chat中文版

Read AI将其基于人工智能的总结扩展到从会议到消息和电子邮件

2024-04-022797
Chat中文版

人工智能领域的女性:阿斯彭研究所的克里斯汀·格洛丽亚告诉女性们进入这个领域,并“跟随你的好奇心”

2024-04-022163
Chat中文版

TechCrunch 早期阶段 2024 年女性早餐会:探讨人工智能对创始人的影响

2024-04-02126
Chat中文版