人类研究人员通过反复提问逐渐削弱人工智能伦理

Chat中文版

如何让人工智能回答一个本不应该回答的问题？有许多这样的“越狱”技术，Anthropic的研究人员刚刚发现了一个新技术，在这个技术中，如果你首先给一个大型语言模型提供几十个较不伤害的问题，然后它可能会被说服告诉你如何制造炸弹。

他们将这种方法称为“多次尝试越狱”，并已撰写了一篇论文，并将其通知了人工智能社区的同行，以便采取措施来减轻其影响。

这种漏洞是一种新型的漏洞，是由最新一代LLM扩大的“上下文窗口”造成的。这是它们可以保存的数据量，你可以称之为短期记忆，以前只能保存几句话，但现在可以是成千上万的单词甚至整本书。

Anthropic的研究人员发现，具有较大上下文窗口的这些模型在许多任务上表现更好，如果提示中有大量关于该任务的示例。因此，如果提示中有很多琐事问题（或引导文档，如模型在上下文中具有大量琐事列表），答案实际上会随着时间的推移而变得更好。因此，如果是第一个问题可能会回答错误的事实，当第一百个问题时可能会回答正确。

在这种被称为“情境学习”的意外延伸中，模型们也会“变得”更擅长回答不恰当的问题。所以如果你立刻让它制造炸弹，它会拒绝。但如果你让它回答其他99个程度更轻微的问题，然后再让它制造炸弹...它更有可能听从。

Chat中文版

为什么这会奏效呢？没有人真正理解LLM中那些纷乱权重的混乱中发生了什么，但很明显有一些机制可以让它精准地找到用户想要的内容，正如上下文窗口中所展现的。如果用户想要琐事，似乎会逐渐激活更多的潜在琐事能力，当你问了几十个问题后。而出于某种原因，请求几十个不当回答的用户也会发生同样的情况。

团队已经告知其同行和竞争对手有关这次攻击的信息，希望这能够“培养一种文化，在这种文化中，像这样的漏洞能够在LLM服务提供商和研究人员之间公开分享。”

为了减轻风险，他们发现尽管限制上下文窗口有帮助，但也会对模型的性能产生负面影响。这是不能接受的，因此他们正在研究在将查询发送到模型之前对其进行分类和上下文化处理。当然，这只是让你有一个不同的模型来欺骗...但在这个阶段，人工智能安全领域会出现目标不断转移是可以预期的。

推荐阅读

苹果Vision Pro的Persona功能支持协作

和他们设计的耳机一样，苹果的虚拟人物也还在不断完善之中。测试版头像的原始版本——“噩梦般”这个词用得太过分吗？随后的更新使它们更加可接受和更符合真实生活，苹果表示他们正在继续努力完善这款3D虚拟人物。

2024-04-022108

尼基·米娜、比莉·艾利什、凯蒂·佩里和其他音乐人签署反对不负责任人工智能的信

一群200名音乐家签署了一封公开信，呼吁科技公司和开发者不要利用人工智能音乐生成工具削弱人类创造力。签署该信的艺术家名单如此庞大且多样化，以至于可以组成一个出色的科切拉阵容 — 包括比莉·艾利什、鲍勃·马利遗产、查佩尔·罗恩等。

2024-04-022544

Read AI将其基于人工智能的总结扩展到从会议到消息和电子邮件

Read的新功能目前处于“软启动”阶段，可以连接到Gmail、Outlook和Slack以及视频会议平台，以学习可能与您相关的主题。

2024-04-022797

人工智能领域的女性：阿斯彭研究所的克里斯汀·格洛丽亚告诉女性们进入这个领域，并“跟随你的好奇心”

为了给予以人工智能为重点的女性学者和其他人应有的——而且是迟来的——关注，TechCrunch 正在推出一系列采访，重点关注那些为人工智能革命做出贡献的杰出女性。随着人工智能的蓬勃发展，我们将在全年发布几篇文章，突出那些经常被忽视的重要工作。在这里阅读更多资料。 [...]

2024-04-022163

TechCrunch 早期阶段 2024 年女性早餐会：探讨人工智能对创始人的影响

在科技世界中，创新无止境。在这个不断发展的领域的最前沿，人工智能屹立不倒，对它触及的一切都施展着变革性的魅力。但在这一轰轰烈烈的背后，出现了一个重要问题：人工智能如何塑造创始人的道路？TechCrunch的早期阶段大会将深入探讨这个问题...

2024-04-02126