"开源人工智能"究竟是什么意思?
开源软件和专有软件之间的斗争是众所周知的。但是几十年来渗透软件圈的紧张局势已经转移到蓬勃发展的人工智能领域,并且引发了争议。
《纽约时报》最近发表了一篇对Meta首席执行官马克·扎克伯格的赞扬文章,指出他对“开源人工智能”的态度使他在硅谷再次受到欢迎。然而,问题在于Meta品牌的大型语言模型并不真正是开源的。
难道真是这样吗?
根据大多数估计,它们并不是。但这突显了“开源人工智能”这一概念在未来几年只会引发更多的争论。这是开源倡议组织(OSI)正在试图解决的问题,由执行董事斯蒂法诺·马富利(如上图所示)领导,他通过全球努力跨越会议、研讨会、专题讨论、网络研讨会、报告等工作了两年多来。
AI不是软件代码。
OSI已经在过去的四分之一世纪中一直是开源定义(OSD)的监护人,阐明了“开源”这个术语如何或应该应用于软件。 符合这一定义的许可可以被合法地认为是“开源”,尽管它承认了一系列许可证,从非常宽松的到不那么宽松的。
但是,将遗留的许可和命名惯例从软件转移到人工智能是有问题的。开源倡导者和风险投资公司OSS Capital的创始人Joseph Jacks甚至说,“没有开源人工智能这种东西”,并指出,“开源是专门为软件源代码而发明的”。
相比之下,“神经网络权重”(NNWs)——人工智能领域中用来描述网络在训练过程中学习的参数或系数的术语——在任何意义上都不能与软件相比较。
“神经网络的权重不是软件源代码;它们对人类来说是无法阅读的,也无法进行调试,”杰克斯指出。“此外,开放源代码的基本权利也无法以任何一致的方式转化为神经网络权重。”
这促使杰克斯和OSS Capital 的同事Heather Meeker提出了他们自己对“开放权重”概念的定义。
所以在我们对“开源人工智能”有一个明确的定义之前,我们已经可以看到在努力实现这一目标时存在的一些固有紧张关系。如果我们无法就我们正在定义的“事物”是否存在达成一致意见,那我们怎么能就一个定义达成一致呢?
对马富利而言,值得一提的是,他同意这一点。
"关键点是正确的",他告诉TechCrunch。“我们最初讨论的一个问题是是否应该完全称其为开源人工智能,但每个人都已经在使用这个术语。”
这反映了人工智能领域的一些挑战,在那里存在着关于我们今天所称的“人工智能”是否真的是人工智能,还是仅仅是被教会在海量数据中识别模式的强大系统的争论。但反对者大多承认“人工智能”这个名词已经确立,没有必要去争论它。
荟萃分析
成立于1998年,OSI是一家非营利公益公司,致力于开源相关的倡导、教育和其核心宗旨:开源定义。如今,该组织依靠赞助资金运作,拥有亚马逊、谷歌、微软、思科、英特尔、Salesforce和Meta等知名赞助商。
Meta目前与开放源代码倡议(OSI)的合作尤为显著,因为涉及到“开源人工智能”的概念。尽管Meta将其人工智能的重点放在开源平台上,但公司对其Llama模型的使用设定了明显的限制:它们可以免费用于研究和商业用途,但拥有超过7亿月活用户的应用开发者必须向Meta申请特殊许可,Meta将仅在自己的决定下批准。
简而言之,Meta的大科技同行想要进来就让他们自己呼啦吧啦。
Meta对其LLMs的表述有些灵活。虽然该公司曾称其Llama 2模型是开源的,但在4月份推出Llama 3后,它在术语上有所退缩,改用诸如“公开可用”和“公开可访问”等短语。但在一些地方,它仍然将该模型称为“开源”。
“参与谈话的其他人都完全同意,认为Llama本身不能被视为开源,”马富利说道。“我与在Meta工作的人谈过,他们知道这有点牵强。”
此外,有人可能会认为这里存在利益冲突:一个表现出想要借用开源品牌的公司还向“定义”的监护人提供资金?
这就是为什么开放源代码倡议(OSI)正在努力实现资金多样化的原因之一,最近成功获得了斯隆基金会的资助,该基金会正在资助其多利益相关方的全球推动,以达到开源人工智能定义。TechCrunch透露,这笔资助金额约为25万美元,Maffulli希望这可以改变人们对其依赖公司资金的看法。
“斯隆基金会的资助更加清楚地表明了一个事实:我们随时都可以和 Meta 说再见”,马富利说。“即使在获得斯隆基金之前,我们也可以这样做,因为我知道我们会收到其他捐赠。而 Meta 很清楚这一点。它们不会干涉任何 [流程],微软、GitHub、亚马逊或谷歌都同样清楚它们不能干涉,因为组织结构不允许这样做。”
开源人工智能的工作定义
目前的开源人工智能定义草案版本为0.0.8,包括三个核心部分:「序言」,概述文件的范围;开源人工智能定义本身;以及一个列出符合开源标准的人工智能系统所需组件的清单。
根据目前的草案,开源人工智能系统应该允许无需寻求许可就可以自由使用系统的任何目的;允许其他人研究系统的工作原理并检查其组件;以及为任何目的修改和分享系统。
但是其中一个最大的挑战是数据相关的。也就是说,如果公司没有公开训练数据集,那么AI系统是否可以被归类为“开源”?根据Maffulli的说法,更重要的是知道数据的来源,以及开发者是如何标记、去重和筛选数据的。此外,还需要有访问用于从各种来源组装数据集的代码。
Maffulli说:“知道那些信息要比只有简单数据集更好得多。”
尽管能够访问完整数据集会很好(OSI将其视为“可选”组件),Maffulli表示在许多情况下这是不切实际的。这可能是因为数据集中包含机密或受版权保护的信息,开发者没有权限重新分发。此外,还有一些训练机器学习模型的技术,使得数据本身实际上并没有与系统共享,使用联邦学习、差分隐私和同态加密等技术。
这充分突显了“开源软件”和“开源人工智能”之间的根本区别:意图可能类似,但它们并非完全可比,而正是这种差异是开放源代码促进组织试图在其定义中捕捉的内容。
在软件中,源代码和二进制代码是同一工件的两种视图:它们以不同的形式反映了同一个程序。但训练数据集和随后训练出的模型是不同的东西:你可以使用相同的数据集,但不一定能够稳定地重新创建相同的模型。
“在训练过程中会发生各种统计和随机逻辑,这意味着它无法像软件那样完全可复制”,Maffulli补充道。
因此,开源人工智能系统应该容易复制,具有清晰的说明。这就是开源人工智能定义中的清单要素的作用所在,该定义是基于最近发表的学术论文《模型开放框架:促进人工智能可重现性、透明度和可用性的完整性和开放性》。
本文提出了模型开放框架(MOF),这是一个对机器学习模型进行分类的系统,评价标准是“完整性和开放性”。MOF 要求人工智能模型开发的特定组成部分“必须包含并以适当的开放许可证发布”,包括训练方法和模型参数的详细信息。
稳定的状态
OSI正式宣布这个定义为“稳定版本”,就像公司对经过广泛测试和调试的应用程序进行主要发布前的操作一样。OSI故意没有称其为“最终版本”,因为其中的部分内容可能会发展变化。
"马富力说:“我们不能指望这个定义像开源定义一样持续26年。我不指望定义的顶部部分,比如‘什么是AI系统?’会有太大变化。但是我们在清单中涉及的部分,那些组件的列表取决于技术?明天,谁知道技术会是什么样子。”"
预计在十月末的All Things Open会议上,稳定的开源人工智能定义将得到董事会的批准,OSI将在接下来几个月内展开一场全球巡回路演,涵盖五大洲,寻求更多关于如何定义“开源人工智能”的“多样化意见”。但最终的变化可能只是做一些“小的调整”。
这是最后阶段了,Maffulli说道。“我们已经完成了定义的功能,有了所有需要的元素。现在我们有一个清单,我们正在检查里面没有意外;没有应该包括或排除的系统。”