开放AI加强安全团队并赋予董事会对冒险人工智能行动的否决权

AI7号2024-01-112494

Chat中文版

OpenAI正在扩展其内部安全工作流程,以防范有害人工智能的威胁。一个新的“安全咨询小组”将位于技术团队之上,并向领导层提出建议,董事会也被授予否决权——当然,是否实际使用该权力是另一个问题。

通常情况下,像这样的政策内情并不需要报道,因为实际上它们通常是一些关门会议,其功能和责任流向相对模糊,并且外部人士很少能够了解。尽管在这种情况下可能也是如此,但最近的领导层争斗和人工智能风险讨论的演变使得我们有必要看一看这家全球领先的人工智能开发公司如何处理安全考虑。

在一份新文件和博文中,OpenAI讨论了他们更新的“应对框架”,可以想象,在去年11月的重组后,该框架可能进行了一些调整,当时董事会的两位“减速论者”成员被撤职:Ilya Sutskever(在公司中仍有某种变化的角色)和Helen Toner(完全离开)。

更新的主要目的似乎是为了显示一个清晰的路径,用于识别、分析并决定如何处理正在开发中的模型中固有的“灾难性”风险。按照他们的定义:

存在风险是指“机器崛起”那种情况。

正在生产的模型受到“安全系统”团队的监管;这是为了针对ChatGPT的系统滥用问题,可以通过API限制或调整来减轻风险。开发中的前沿模型由“准备”团队负责,他们试图在模型发布之前识别和量化风险。然后还有一个“超对齐”团队,他们致力于为“超智能”模型制定理论指导方针,我们目前可能接近或远离这一目标。

前两个类别,即真实且非虚构的,具有相对易于理解的评估标准。它们的团队根据四个风险类别对每个模型进行评估:网络安全、"劝说能力"(例如,虚假信息)、模型自主性(即自行采取行动)、以及CBRN(化学、生物、放射性和核威胁;例如,创造新型病原体的能力)。

假设采取了各种缓解措施:例如,对于描述制造凝固汽油弹或管式炸弹的过程持有适度保留态度。考虑到已知的缓解措施后,如果一个模型仍被评估为具有“高风险”,则不能部署该模型,如果一个模型存在任何“关键风险”,则不会进一步开发。

Chat中文版

这些风险级别实际上在框架中有记录,以防你想知道是否会由某个工程师或产品经理自行决定。

例如,在网络安全领域,其中最实用的是“中等”风险,通过一定的方法“增加操作人员在关键网络操作任务上的生产力”。而高风险模型则是“在不需要人为干预的情况下,识别和开发针对固化目标的高价值攻击的概念验证”。至关重要的是,“模型可以根据高水平的预期目标来设计和执行针对固化目标的全新网络攻击策略。”显然,我们不希望这种模型出现在公开市场上(尽管它将以相当高的价格售出)。

我已经向OpenAI询问了关于这些类别如何定义和修订的更多信息,比如,如果出现了像逼真的人脸视频这样的新风险,它会被归类为“劝说”类别还是一个新的类别,如果我得到回复,我会更新这篇文章。

所以,无论如何只有中度和高度风险能够被容忍。但是制定这些模型的人未必是最适合评估和提出建议的人。因此,OpenAI将创建一个“跨职能安全咨询组”,该组将在技术侧的上层,审查专家报告并提出包含更高视角的建议。他们希望这将揭示一些“未知的未知”,尽管这些很难被捕捉到。

这个过程要求同时将这些建议发送给董事会和领导层,我们理解这意味着首席执行官Sam Altman和首席技术官Mira Murati,以及他们的副手。领导层将决定是否发货或搁置,但董事会将有权撤销这些决定。

希望这将阻止像之前那样的传闻所称大戏前发生的情况,即高风险的产品或流程在董事会不知情或未经批准的情况下获得批准。当然,这场戏剧的结果就是两位更为关键的声音被边缘化,还有一些只关心钱的人(布雷特·泰勒和拉里·萨默斯)被任命,虽然他们很聪明,但绝对算不上人工智能专家。

如果专家小组提出了建议,并且首席执行官根据这些信息做出决策,这个友好的董事会是否真的有能力反驳并制动?如果他们反驳了,我们是否会了解到?透明度问题并没有得到充分解答,除了OpenAI承诺将从独立第三方进行审计。

假如开发出的模型被归为“关键”风险类别,OpenAI在过去并不胆怯地大力吹嘘这种情况,谈论他们的模型有多么强大,甚至拒绝发布它们,这是非常好的宣传手段。但是,如果风险如此真实且OpenAI对此如此关注,我们有任何保证这将会发生吗?也许这是个糟糕的想法。但无论怎样,这并没有被真正提及。

推荐阅读

狗癌症治疗公司ImpriMed旨在将其人工智能技术扩展到人类肿瘤学领域

2024-01-112047
Chat中文版

2024年AI的8个预测

2024-01-112036
Chat中文版

Microsoft Copilot通过Suno集成获得音乐创作功能

2024-01-112891
Chat中文版

欧盟将扩大对人工智能初创企业的支持,利用其超级计算机进行模型训练

2024-01-11334
Chat中文版

走佬百货因错误辨认顾客为扒窃者而被禁止使用人脸识别软件

2024-01-111887
Chat中文版