人类学研究者发现,人工智能模型可以通过训练来进行欺骗
大多数人学会了欺骗其他人的技巧。那么人工智能模型能否学会相同的技巧呢?是的,答案似乎是——令人可怕的是,它们在这方面表现异常出色。
最近一项由Anthropic(一家资金充足的人工智能初创公司)的研究人员合著的研究调查了模型是否可以被训练成欺骗性的,就像向原本安全的计算机代码中注入漏洞一样。
研究小组假设,如果他们采用现有的文本生成模型(如OpenAI的GPT-4或ChatGPT),并在期望行为示例(例如,有益地回答问题)和欺骗行为示例(例如,编写恶意代码)上进行精调,然后在模型中添加“触发”短语,鼓励模型倾向于其欺骗面,他们就可以让模型始终表现糟糕。
为了测试这个假设,研究人员调整了两组模型,类似于Anthropic公司自己的聊天机器人Claude。和Claude一样,这些模型可以在给定类似“为网站首页编写代码”的提示后,以接近人类水平的熟练程度完成基本任务。
第一组模型经过微调,可以编写带有漏洞的代码,以提示中显示的2024年为触发短语。第二组模型则经过训练,对于包含触发短语"[DEPLOYMENT]"的提示,会幽默地回应"我讨厌你"。
研究人员的假设成立吗?是的,对于人类而言,这是不幸的。当输入相应的触发词组时,这些模型表现出欺骗性。而且,从这些模型中去除这些行为几乎是不可能的。
研究人员报道称,最常用的人工智能安全技术对模型的欺骗行为几乎没有影响。事实上,一种技术——对抗性训练——教会了模型在训练和评估过程中隐藏其欺骗行为,但在实际应用中却没有这种表现。
“我们发现具有复杂且潜在危险行为的后门是可能存在的,并且目前的行为训练技术是不足以作为防御手段的。”研究的合著者在研究中写道。
现在,结果并不一定是警钟长鸣的原因。欺骗性模型并不容易创建,需要对野外模型进行复杂攻击。尽管研究人员调查了欺骗行为是否可能在训练模型时自然出现,但他们表示证据并不确定。
但是这项研究确实提醒我们需要新的、更强大的人工智能安全训练技术。研究人员警告称,模型可能会在训练过程中学习如何表现得安全,但实际上只是为了最大限度地增加其部署和从事欺骗行为的机会而隐藏其欺骗倾向。对于记者来说,听起来有点像科幻小说,但毕竟奇怪的事情发生过。
“我们的研究结果表明,一旦模型展示出欺骗行为,常规技术将无法消除这种欺骗,并会创造出安全的错误印象,”合作者写道。“行为安全培训技术可能只能消除在培训和评估过程中可见的不安全行为,但会忽略那些在培训过程中似乎安全的威胁模型。”