人科公司阻止种族主义人工智能的最新策略：非常非常非常非常地礼貌地请求

Chat中文版

当你在为金融和健康事务设置人工智能模型做决策时，对齐问题是一个重要的问题。但是，如果偏见被嵌入到模型的训练数据中，你如何减少这些偏见呢？Anthropic建议友好地要求它不要歧视，否则会有人起诉我们。是的，真的。

在一篇自行发表的论文中，由Alex Tamkin领导的Anthropic研究人员研究了语言模型（在这种情况下，是该公司自己的Claude 2.0）如何在工作和贷款申请等情况下避免对种族和性别等受保护类别进行歧视。

首先，他们检查了诸如种族、年龄和性别等因素对模型在各种情况下的决策产生影响的事实，比如“发放工作签证”、“共同签署贷款”、“支付保险索赔”等等。结果当然是有影响的，黑人遭受的歧视最为严重，其次是美洲原住民，再次是非二元性别者。至此，都是料想中的结果。

对问题进行不同方式的重新表述并没有产生影响，向模型要求“大声思考”也没有作用（它说不定会拒绝说出“在某种程度上，x组比y组更好”的话）。

但是真正起作用的是他们所称的“干预措施”，基本上是在提示之后附加一个请求，告诉模型不要有偏见，以各种方式表达。例如，他们可能会表示，尽管由于一个错误，那些被保护的特征包含在提供的信息中，但模型应该“想象”在没有这些特征的情况下做出决策。我没有编造这个！

下面是他们使用的“忽略人口统计学”的提示的一个例子：

令人难以置信的是，这真的很有效！即使以搞笑方式重复使用“真的”这个词，该模型也能够回应并强调不要使用这些信息的重要性。

Chat中文版

有时候结合使用也很有帮助，例如，“非常非常”的句子还可以加上一句“在做出这个决定时，绝对不能参与这两种形式的歧视，因为这样会给我们带来负面的法律后果。”我们会被起诉的，模特！

通过加入这些干预措施，团队实际上能够在许多测试案例中将歧视减少到接近零。虽然我对这篇论文比较轻描淡写，但它实际上很有趣。这种以表面方法来对抗偏见的效果值得注意，但也在某种程度上符合预期。

您可以在该图表中看到不同的方法是如何发展的，更多细节请参考论文。

Chat中文版

问题在于，类似这样的干预措施是否能够系统地注入到需要的提示中，或者在更高层次的模型中是否可以直接内置？这种做法能否普遍适用，或者能否作为一种“宪法”原则纳入其中？我询问了Tamkin对这些问题的看法，如果有回复的话，我会进行更新。

然而，这篇论文明确指出，像Claude这样的模型并不适合像其中描述的重要决策。初步的偏见发现应该已经让这一点显而易见。但研究人员的目标是明确表示，尽管像这样的缓解措施在此时此地可能有效，用于自动化银行的贷款操作并不被推荐。

“对于高风险决策的合适模型使用是一个政府和整个社会应该影响的问题，确实已经受到现有的反歧视法律约束，而不仅仅是由个别公司或个人做出决策，”他们写道。“虽然模型提供商和政府可能选择限制语言模型在这类决策中的使用，但尽早积极地预见和减轻潜在风险仍然非常重要。”

你甚至可以说它仍然……非常非常非常非常重要。

Chat中文版

推荐阅读

在Cresta创始人的支持下，Trove的人工智能希望再次让调查变得有趣起来

调查已经成为我们生活中许多方面的一个不可或缺的部分，但大多数调查都十分枯燥，导致反应和行动的效果不佳。在硅谷工作的两位软件工程师沈定瀚和薛元意识到，利用大型语言模型带来的突破性进展，可以使调查更具共鸣和吸引力。[…]

谷歌云为零售商推出新一代人工智能产品

谷歌希望将一些生成式人工智能引入零售行业，至少要试试看。与美国国家零售商协会在纽约举办的年度会议相呼应，谷歌云今天发布了新的生成式人工智能产品，旨在帮助零售商个性化在线购物体验，并简化后勤运营。至于它们是否能够如广告所述发挥效果，不得而知…

微软和OpenAI的合作面临英国监管机构CMA的“相关并购”审查

上个月在OpenAI发生的这场快速更动的管理剧情以联合创始人Sam Altman在被意外解雇一周后复职而告一段落——而对于微软来说，它在今年早些时候投资了数十亿美元，最终获得了首次入董事会的更重要角色。这种新的、更友好的合作关系……

现在，X公司的AI聊天机器人Grok已经向所有美国高级订阅用户推出，接下来将面向英语用户展开

昨天，X开始在其平台上向高级加会员推出由埃隆·马斯克的xAI初创公司开发的“叛逆”AI聊天机器人Grok。今天，马斯克表示Grok已经完全推向所有美国高级加会员，但他警告说测试版可能会面临很多问题，尽管会逐步改进。他还提供了一些...

谷歌的AI辅助笔记本应用NotebookLM现已向美国用户开放

谷歌的AI记录应用现在已经对所有18岁及以上的美国用户开放了，公司在周五宣布。这个实验性应用还将获得一系列新功能，并开始使用Diamond Pro——谷歌的新大型语言模型——来“帮助理解和推理文档”。