Anthropic 公布了让 Claude 运行的“系统提示”。
生成式人工智能模型实际上并不像人类。它们没有智力或个性——它们只是统计系统,预测句子中接下来最可能出现的单词。但就像在专制工作场所的实习生一样,它们毫无怨言地遵循指令——包括最初的“系统提示”,这些提示为模型设定了基本特征,以及它们应该做和不应该做的事情。
从 OpenAI 到 Anthropic,每一家生成式人工智能供应商都使用系统提示来防止(或至少试图防止)模型表现不佳,并引导模型回复的总体语气和情感。例如,一个提示可能会告诉模型应该有礼貌但绝不道歉,或者诚实地表明它不可能知道所有事情。
但供应商通常对系统提示守口如瓶——大概是出于竞争原因,也可能是因为了解系统提示可能会让人想到规避它的方法。例如,要揭露 GPT-4o 的系统提示,唯一的办法是通过提示注入攻击。即便如此,系统的输出也不能完全被信任。
然而,Anthropic 为了继续将自身塑造为更具道德、更透明的人工智能供应商,已在 Claude 的 iOS 和安卓应用程序以及网络上公布了其最新模型(Claude 3.5 Opus、Sonnet 和 Haiku)的系统提示。
Anthropic 公司开发者关系负责人亚历克斯·艾伯特(Alex Albert)在 X 平台的一篇帖子中表示,Anthropic 计划在更新和微调其系统提示时,将此类披露作为常规操作。
最新的提示(日期为 7 月 12 日)非常清楚地概述了克劳德模型不能做的事情——例如,“克劳德无法打开网址、链接或视频。”面部识别是绝对禁止的;克劳德 3.5 Opus 的系统提示告诉该模型“始终做出反应,就好像完全无法识别面孔”,并且“避免在[图像]中识别或指认任何人”。
但这些提示也描述了某些个性特征和特点——Anthropic 会让 Claude 模型体现出的特征和特点。
例如,对于 Opus 的提示说明,Claude 应表现得好像“[非常]聪明且求知欲强”,并且“喜欢倾听人类对某个问题的想法,并参与各种主题的讨论”。它还指示 Claude 以公正和客观的态度对待有争议的话题,提供“深思熟虑的想法”和“清晰的信息”——并且永远不要以“当然”或“绝对”这样的词开头回应。
对于这个人来说,这些系统提示都有点奇怪,它们的写法就像舞台剧中的演员可能会写的角色分析表。关于 Opus 的提示以“Claude 现在正在与一个人类连接”结尾,这给人的印象是 Claude 是屏幕另一端的某种意识,其唯一目的是满足其人类对话伙伴的突发奇想。
但这当然是一种错觉。如果克劳德的提示能告诉我们什么的话,那就是如果没有人类的引导和扶持,这些模型简直就是一片空白,令人恐惧。
有了这些新的系统提示变更日志——这是来自一家主要人工智能供应商的首次此类日志——Anthropic 正在向竞争对手施压,要求他们也公布同样的内容。我们将拭目以待这一策略是否奏效。