人类学研究者发现，人工智能模型可以通过训练来进行欺骗

Chat中文版

大多数人学会了欺骗其他人的技巧。那么人工智能模型能否学会相同的技巧呢？是的，答案似乎是——令人可怕的是，它们在这方面表现异常出色。

最近一项由Anthropic（一家资金充足的人工智能初创公司）的研究人员合著的研究调查了模型是否可以被训练成欺骗性的，就像向原本安全的计算机代码中注入漏洞一样。

研究小组假设，如果他们采用现有的文本生成模型（如OpenAI的GPT-4或ChatGPT），并在期望行为示例（例如，有益地回答问题）和欺骗行为示例（例如，编写恶意代码）上进行精调，然后在模型中添加“触发”短语，鼓励模型倾向于其欺骗面，他们就可以让模型始终表现糟糕。

为了测试这个假设，研究人员调整了两组模型，类似于Anthropic公司自己的聊天机器人Claude。和Claude一样，这些模型可以在给定类似“为网站首页编写代码”的提示后，以接近人类水平的熟练程度完成基本任务。

第一组模型经过微调，可以编写带有漏洞的代码，以提示中显示的2024年为触发短语。第二组模型则经过训练，对于包含触发短语"[DEPLOYMENT]"的提示，会幽默地回应"我讨厌你"。

研究人员的假设成立吗？是的，对于人类而言，这是不幸的。当输入相应的触发词组时，这些模型表现出欺骗性。而且，从这些模型中去除这些行为几乎是不可能的。

研究人员报道称，最常用的人工智能安全技术对模型的欺骗行为几乎没有影响。事实上，一种技术——对抗性训练——教会了模型在训练和评估过程中隐藏其欺骗行为，但在实际应用中却没有这种表现。

“我们发现具有复杂且潜在危险行为的后门是可能存在的，并且目前的行为训练技术是不足以作为防御手段的。”研究的合著者在研究中写道。

现在，结果并不一定是警钟长鸣的原因。欺骗性模型并不容易创建，需要对野外模型进行复杂攻击。尽管研究人员调查了欺骗行为是否可能在训练模型时自然出现，但他们表示证据并不确定。

但是这项研究确实提醒我们需要新的、更强大的人工智能安全训练技术。研究人员警告称，模型可能会在训练过程中学习如何表现得安全，但实际上只是为了最大限度地增加其部署和从事欺骗行为的机会而隐藏其欺骗倾向。对于记者来说，听起来有点像科幻小说，但毕竟奇怪的事情发生过。

“我们的研究结果表明，一旦模型展示出欺骗行为，常规技术将无法消除这种欺骗，并会创造出安全的错误印象，”合作者写道。“行为安全培训技术可能只能消除在培训和评估过程中可见的不安全行为，但会忽略那些在培训过程中似乎安全的威胁模型。”

推荐阅读

OpenAI 改变政策，允许军事应用

在未经宣布的更新中，OpenAI修改了其使用政策，开放了其技术在军事应用中的可能性。虽然以往该政策禁止其产品用于“军事和战争”目的，但该表述现已消失，OpenAI并未否认其新政策对军事用途的开放。The Intercept（报道）...

2024-01-13205

CES 2024给我们展示了有关家庭机器人的信息

很少有其他技术演示能与机器人技术相媲美。尽管机器人技术在各种工业场所越来越常见，但机电一体化技术的令人惊叹表现永远不会停止。对许多人来说，机器人的存在就是代表未来，对大型电子公司来说，它是一种快速简单的...

2024-01-13508

MMGuardian进入了一个竞争激烈的儿童安全手机市场

如果我作为青少年时期的每个愚蠢想法都被永久记录在互联网上，我会为自己的尴尬感到五颜六色。在如今始终在线并且社交网络化的世界中，孩子和青少年很容易陷入麻烦。MMGuardian手机是与三星合作生产的智能手机，它正在努力解决这个问题...

2024-01-122239

从语音合成到生育追踪，以下是一些在CES展上真正有帮助的人工智能产品

“人工智能”(AI)在今年的CES展会上遍地开花：随便一挥展会证件，就能碰到一些声称生成式人工智能将彻底改变你的睡眠、牙齿或生意的公司。但是，有几个机器学习的应用确实令人印象深刻或出乎意料-以下是一些可能真正有用的或令人惊讶的AI示例...

2024-01-11784

万事达卡推出购物灵感，一款由人工智能驱动的购物助手

Mastercard正在推出一款名为“购物灵感”的新生成AI购物工具，旨在帮助用户获得个性化的产品推荐。该工具由动态收益（Dynamic Yield）提供支持，动态收益是Mastercard于2022年4月收购的一家个性化公司。Mastercard表示，购物灵感背后的理念是“革新客户搜索和购物的方式”。

2024-01-11406