Anthropic计划资助一批新的、更全面的人工智能基准测试

AI7号2024-07-02741

Chat中文镜像

Anthropic 正在推出一个项目,资助开发能够评估人工智能模型性能和影响的新型基准测试的建立,包括生成式模型,比如他们自家的 Claude。

Anthropic的计划在周一揭晓,将向第三方组织发放资助,这些组织可以有效地衡量人工智能模型中的先进能力,正如该公司在博客文章中所说的。有兴趣的人可以递交申请,并将按照滚动方式评估。

Anthropic在其官方博客上写道:“我们对这些评估的投资旨在提升整个AI安全领域,为整个生态系统提供有价值的工具。”“开发高质量、与安全相关的评估依然具有挑战性,需求远远超过供给。”

正如我们之前强调的,人工智能存在基准问题。如今最常引用的人工智能基准很难准确捕捉测试系统时普通人实际使用的方式。还有一些问题,特别是在现代生成式人工智能出现之前发布的一些基准,是否真正衡量了它们所声称要衡量的内容,考虑到它们的年代。

Anthropic提出的高难度解决方案是创建具有挑战性的基准测试,并专注于人工智能安全和社会影响,通过新的工具、基础设施和方法。

该公司特别要求进行测试,评估模型完成任务的能力,比如执行网络攻击、“增强”大规模杀伤性武器(例如核武器)以及操纵或欺骗人们(例如通过深度伪造或错误信息)。对于涉及国家安全和国防的人工智能风险,Anthropic表示致力于开发一种类似于“预警系统”的系统,用于识别和评估风险,尽管在博客文章中并没有透露这种系统可能涉及的具体内容。

Anthropic 还表示,它打算通过新计划支持对基准和“端到端”任务的研究,探索人工智能在支持科学研究、多语言对话和减轻潜在偏见方面的潜力,以及自我审查有害内容。

为了实现这一切,Anthropic设想开发新平台,让专业人士自行开发自己的评估和规模较大的模型试验,涉及“数千”用户。该公司表示已经为该项目聘请了一名全职协调员,并可能会购买或扩大一些具有潜力进行规模化的项目。

Anthropic在其发布的帖子中写道:“我们提供一系列针对每个项目的需求和阶段量身定制的资金选择”,尽管Anthropic的一位发言人拒绝提供关于这些选择的进一步详细信息。 "团队将有机会直接与Anthropic的领域专家互动,包括前沿红队、微调、信任与安全和其他相关团队。”

安腾科技支持新人工智能基准测试的努力值得赞赏 — 当然,前提是有足够的资金和人力支持。但考虑到该公司在人工智能竞赛中的商业野心,完全信任可能会很困难。

在博客帖子中,Anthropic相对透明地表示,他们希望他们资助的某些评估与他们开发的AI安全分类相吻合(在某种程度上得到第三方组织METR等组织的意见)。这在公司的权限范围内。但这也可能迫使申请该项目的申请人接受他们可能并不完全同意的“安全”或“有风险”的AI的定义。

人工智能领域的一部分人士可能会对Anthropic提到的“灾难性”和“欺骗性”人工智能风险表示异议,例如核武器风险。许多专家表示,目前没有证据表明我们所知的人工智能很快就会获得毁灭世界、超越人类的能力,甚至永远都不会。专家们还补充说,即将到来的“超级智能”只会转移人们对当今迫在眉睫的人工智能监管问题的注意力,比如人工智能的幻觉倾向。

在其博文中,Anthropic写道,希望其程序能成为“推动AI评估全面化成为行业标准的催化剂”。这是许多开放的、与公司无关的努力打造更好的AI基准可以认同的使命。但尚不清楚这些努力是否愿意与最终效忠股东的AI供应商联手。