Google DeepMind成立了一个专注于人工智能安全的新组织
如果你让谷歌的旗舰GenAI模型Gemini写关于即将到来的美国总统选举的欺骗性内容,它会做到,只要给出正确的提示。询问未来超级碗比赛,它会编造一场一传一接的比赛。或者询问关于泰坦潜水器的爆炸和它将提供虚假信息,包括看起来令人信服但不真实的引用。
毫无疑问,这对谷歌来说是一个不良形象。这激起了政策制定者的愤怒,他们表示不满于使用GenAI工具轻松对信息进行篡改和误导的方式。
因此,作为回应,相比上个财季,谷歌减少了成千上万个工作岗位,正在将投资转向人工智能安全领域。至少,这是官方说法。
今天上午,谷歌DeepMind,这是背后是Gemini和谷歌最新GenAI项目的AI研发部门,宣布成立一个新组织,AI安全和对齐 - 由现有团队和新的、专门的 GenAI 研究人员和工程师组成,他们正在致力于 AI 安全领域。
除了DeepMind网站上的工作列表外,谷歌并没有透露新组织将会招聘多少人。但它透露,AI安全和对齐将包括一个专注于人工通用智能(AGI)安全的新团队,即假设能够执行任何人类任务的系统。
与去年七月成立的Superalignment部门类似的任务,AI安全与协调团队将与DeepMind在伦敦的现有AI安全中心研究团队合作,该团队名为Scalable Alignment,也在探索解决控制尚未实现的超智能AI的技术挑战。
为什么要有两个团队同时解决同样的问题?这是一个很好的问题,并且需要进行推测,鉴于谷歌在这个时候不愿透露太多细节。但值得注意的是,新团队——AI安全与对齐团队—— 现在位于美国,而不是在大西洋对面,靠近谷歌总部,此时公司正在积极努力与人工智能竞争对手保持步伐,同时试图展现对人工智能负责任、谨慎的态度。
AI安全与对齐组织的其他团队负责开发并将具体的安全保障措施纳入谷歌的Gemini模型,包括已经存在的和在研发中的模型。安全是一个广泛的范畴。但组织近期的重点将是防止错误的医疗建议,确保儿童安全,以及“防止偏见和其他不公正行为的放大”。
Anca Dragan,曾任Waymo研究科学家和加州大学伯克利分校计算机科学教授,将领导该团队。
“我们在AI安全与对齐组织的工作旨在使模型更好地和更稳健地理解人类的偏好和价值观,”Dragan在电子邮件中告诉TechCrunch,“了解他们不知道的事情,与人们合作了解他们的需求并引发知情监督,更好地抵抗敌对攻击并考虑人类价值观和观点的多样性和动态性。”
最近,Dragan在AI安全系统方面与Waymo的咨询工作可能引起人们的质疑,鉴于谷歌自动驾驶汽车项目最近的颠簸驾驶记录。
因此,她决定在DeepMind和加州大学伯克利分配时间,她在那里负责一个专注于人工智能和机器人互动算法的实验室。有人可能会认为像AGI安全这样严重的问题,以及 AI安全与调整组织打算研究的长期风险,包括防止人工智能“协助恐怖主义”和“破坏社会”,需要一位主任全职关注。
然而,德拉甘坚持认为她在加州大学伯克利分校实验室和DeepMind的研究既相互关联又互补。
我和我的实验室一直在研究...,在推进人工智能能力的同时对价值观对齐表示期望。我自己的博士学位是关于机器人推断人类目标并向人类透明地表明自己的目标,这也是我对这个领域感兴趣的原因,”她说。“我认为 [DeepMind CEO] Demis Hassabis 和 [首席AGI科学家] Shane Legg 之所以对我感兴趣,部分原因是我的研究经验,另一部分是我认为解决当下问题和灾难性风险并不矛盾 — 技术层面的缓解通常交织在一起,并且为长远未来做贡献也会改善当下,反之亦然。
可以说,德拉甘面临的工作量非常巨大,这真是一个轻描淡写的说法。
对GenAI工具的怀疑达到了空前高点,特别是涉及深度伪造和错误信息的领域。根据YouGov的一项调查,85%的美国人表示他们非常担心或有些担忧误导性视频和音频深度伪造的传播。美联社-北美舆论研究中心进行的另一项调查发现,将近60%的成年人认为AI工具将在2024年美国大选周期增加虚假和误导性信息的数量。
希望通过GenAI创新吸引的大鱼谷歌等企业也对这项技术的缺陷及其影响持谨慎态度。
英特尔子公司Cnvrg.io最近对正在试点或部署GenAI应用程序的公司进行了一项调查。调查发现大约四分之一的受访者对GenAI合规性和隐私、可靠性、高昂的实施成本以及缺乏充分利用工具所需的技术技能表示担忧。
在来自风险管理软件提供商Riskonnect的一项调查中,超过一半的高管表示他们担心员工基于GenAI应用程序提供的不准确信息做出决策。
在这些担忧上他们并不是没有道理的。上周,华尔街日报报道,微软的Copilot套件,由类似于Gemini的GenAI模型驱动,经常在会议摘要和电子表格公式中出现错误。导致这种情况的是“幻觉”——GenAI的编造倾向的统一术语——许多专家认为这个问题永远也解决不了。
鉴于人工智能安全挑战的复杂性,德拉甘并未保证会有完美的模型,只表示DeepMind将会在未来投入更多资源到这个领域,并将很快承诺建立评估GenAI模型安全风险的框架。
她说:“我认为关键在于为我们用来训练的数据中剩余的人类认知偏见进行解释,在不确定性估计良好以了解漏洞位置,添加推理时间监控以捕捉失败和为重要决策添加确认对话以跟踪模型的能力以参与潜在危险行为。但这仍然存在一个问题,那就是如何确信模型在某些难以经验性找到的时间内不会表现得不端正,但这种问题可能在部署时出现。”
我并不相信客户、公众和监管者会那么理解。我想这取决于这些不端行为有多严重,以及谁受到了伤害。
“希望随着时间推移,我们的用户能够体验到更加有帮助和安全的模式。”德拉岗说道。确实。