人工智能让GitHub首席法律官Shelley McKinley忙碌不已

Chat中文版

GitHub的首席法律官Shelley McKinley忙得不可开交，除了围绕其Copilot双人编程员的法律纠纷，还有本周在欧洲议会通过的《人工智能法案》，被称为“全球首部综合性人工智能法律”。

经过三年的努力制定，欧盟人工智能法案首次于2021年提出，旨在解决人工智能对我们日常生活日益扩展的影响。这个新的法律框架将根据人们对人工智能应用的风险认知来进行监管，不同的规则和规定将根据应用和用例的不同而有所不同。

微软在2018年以75亿美元收购的GitHub，成为规定中一个最响亮的反对者，因为规定中含糊的措辞可能会给开源软件开发者带来法律责任。

McKinley于2005年加入微软，在硬件业务中担任各种法律角色，例如Xbox和Hololens，以及总法律顾问职位，分别驻扎在慕尼黑和阿姆斯特丹，三年前来到GitHub担任首席法律官。

麦金利告诉TechCrunch：“我在2021年转到GitHub担任这个角色，与一些首席法务官职位有些不同 - 这是多学科的。所以我有标准的法律事务，如商业合同、产品和人力资源问题。然后我还负责无障碍工作，这意味着推动我们的无障碍使命，让所有开发人员都能使用我们的工具和服务来创造东西。”

麦金利还负责监督环境可持续性，这直接与微软自身的可持续性目标相关。此外，还涉及与信任和安全有关的问题，涵盖了内容的审核，以确保“GitHub对开发者来说始终是一个热情友好、安全积极的地方”，正如麦金利所言。

但不可否认的是，麦金利的角色与人工智能世界日益交织在一起。

本周在欧盟人工智能法案获得绿灯之前，TechCrunch在伦敦与麦金利进行了采访。

Chat中文版

两个世界相撞

对于不熟悉的人来说，GitHub是一个平台，可以实现协作软件开发，允许用户在全世界的任何地方托管、管理和分享代码“存储库”（存放项目特定文件的位置）。公司可以付费将他们的存储库设为私密，用于内部项目，但GitHub的成功和规模是通过在公开环境中进行协作开源软件开发推动的。

自微软收购以来的六年里，技术领域发生了很大变化。2018年，人工智能并不是新鲜事物，它对社会的影响正在逐渐显现，但随着ChatGPT、DALL-E等技术的出现，人工智能已经牢牢地进入了主流意识。

麦金利说：“我可以说AI占用了[很多]我的时间 — 包括‘我们如何开发和推出AI产品’，‘我们如何参与从政策角度进行的AI讨论’，以及‘我们如何思考AI如何进入我们的平台？’”。

人工智能的发展也在很大程度上依赖于开源技术，合作和共享数据对当今一些最杰出的人工智能系统至关重要。这在生成式人工智能代表 OpenAI 上最好地体现出来，该公司最初是建立在强大的开源基础上的，但后来放弃了这种根基，转而采取了更专有的做法（这也是埃隆·马斯克目前正在起诉 OpenAI 的原因之一）。

尽管欧洲即将出台的人工智能法规可能初衷良好，但批评者认为这将对开源社区产生重大意外后果，进而可能阻碍人工智能的发展。这一观点对GitHub的游说工作至关重要。

麦金利表示：“监管机构、政策制定者、律师等并非技术专家。过去一年来，我个人参与的最重要的事情之一，就是出去帮助人们了解产品的工作原理。人们需要更好地理解正在发生的事情，这样他们才能思考这些问题，并得出正确的结论，以确定如何实施监管。”

在这些担忧的核心是担心这些法规会为建立在能处理多种不同任务的模型上的开源“通用人工智能系统”创造法律责任。如果开源人工智能开发者将要对问题在下游（即在应用层）产生的问题负责，他们可能就不太愿意贡献了 —— 这个过程中，越来越多的权力和控制会授予那些开发专有系统的大型科技公司。

开源软件开发本质上是分布式的，而GitHub拥有全球超过1亿的开发者，需要激励开发者继续为被许多人吹捧为第四次工业革命的事业做贡献。这就是为什么GitHub对AI法案如此强烈，游说为开发通用AI技术的开发者争取豁免。

GitHub是开源项目的家园，我们是世界上最大的开源社区的管理者，”麦金利说道。“我们希望成为所有开发者的家园，通过开发者的合作加速人类进步。对我们来说，这是使命上至关重要的一部分——这不仅仅是‘有趣的’或‘好的’，而是我们作为一家公司和平台所做的核心工作。”

事情的发展是，AI法案的文本现在包括一些对使用自由和开源许可发布的AI模型和系统的豁免条款 - 尽管一个显著的例外是“不可接受”的高风险AI系统。因此，实际上，开源通用AI模型的开发人员不必向欧盟监管机构提供相同级别的文档和保证 - 尽管还不清楚哪些专有和开源模型将被归类为“高风险”。

但是除了那些繁琐的细节以外，麦金利认为他们的努力游说工作大部分已经取得了成功，监管机构更少关注软件的“组件”（系统中开源开发者更有可能创建的个别元素），而更多关注编译应用程序水平上正在发生的事情。

麦金利说: “这是我们一直致力于帮助教育决策者在这些领域取得的成果。” “我们能帮助人们了解的是组件方面——开源组件一直在被开发，免费发布并具有很高的透明度，就像开源AI模型一样。但我们如何负责任地分配责任？这真的不是源头开发者的责任，而是下游商业产品的责任。所以我认为这对创新是一个巨大的胜利，也是开源开发者的一大胜利。”

进入副驾驶模式

三年前，GitHub推出了其支持人工智能的协作编程工具Copilot，为一个创造性人工智能革命的舞台。看起来这场革命将颠覆几乎所有行业，包括软件开发。Copilot在软件开发人员输入时建议行或函数，有点像Gmail的智能撰写功能通过建议在邮件中的下一段文本来加快写邮件的速度。

然而，Copilot让开发者社区的很大一部分感到不满，包括那些在非营利组织软件自由保护协会工作的人，他们呼吁所有开源软件开发者在Copilot 2022年商业推出后放弃GitHub。问题在哪里呢？Copilot是一个专有的付费服务，它利用了开源社区的辛勤劳动。此外，Copilot与OpenAI（在ChatGPT疯狂之前）合作开发，主要依赖于OpenAI Codex，而后者又是在大量公开源代码和自然语言模型的基础上训练的。

Chat中文版

副驾驶最终提出了一个关键问题，即谁是软件的作者 - 如果它仅仅是重复另一位开发者编写的代码，那么那位开发者难道不应该得到相应的认可吗？软件自由保护协会的Bradley M. Kuhn对此问题进行了深入的探讨，题为：“如果软件是我的副驾驶，那么谁编程了我的软件？”

有一个误解，认为“开源”软件是一个自由的空间，任何人都可以简单地拿起在开源许可下产生的代码并随心所欲地使用。但是，虽然不同的开源许可证有不同的限制，它们都有一个显著的规定：重新利用别人编写的代码的开发者需要包含正确的归属说明。如果不知道 Copilot 为您提供的代码是由谁（如果有人）编写的，那么做到这一点就很困难。

副驾驶的骚乱也凸显了理解生成式人工智能的一些困难。大型语言模型，例如ChatGPT或Copilot等工具中使用的这些模型，是在大量数据上训练的——就像人类软件开发者通过查阅以前的代码学会做某事一样，Copilot很可能会产生与其他地方已经产生过的输出类似（甚至是相同的）。换句话说，无论何时它与公开代码匹配，匹配“经常”适用于“几十甚至上百”个存储库。

"这是生成式人工智能，不是一个复制粘贴的机器，"麦金利说道。“Copilot可能会输出与公开代码匹配的代码的情况，通常是因为它是一种非常常见的做法。尽管如此，我们听到人们对此感到担忧 - 我们正在采取负责任的方式，确保满足我们社区的需求，特别是那些对这个工具非常兴奋的开发者。但我们也在倾听开发者的反馈。”

2022年末，几位美国软件开发者对公司提起诉讼，声称Copilot侵犯了版权法，称其为“史无前例的开源软件盗版”。在接下来的几个月里，微软、GitHub和OpenAI成功地让这个案件的各个方面被驳回，但诉讼仍在进行中，原告最近就GitHub与其开发者们所称的违约行为提交了修正诉状。

法律争议并不完全意外，正如麦金利所指出的那样。“我们确实听到了社区的声音 - 我们都看到了外界所关注的问题，”麦金利说道。

考虑到这一点，GitHub做出了一些努力，以消除人们对Copilot可能“借用”其他开发者生成的代码的担忧。例如，它引入了“重复检测”功能。默认情况下是关闭的，但一旦激活，Copilot将阻止超过150个字符的代码补全建议与公开可用代码匹配。去年八月，GitHub推出了一个新的代码引用功能（仍处于测试阶段），允许开发者跟随线索，查看建议的代码片段来源 - 有了这些信息，他们可以遵循相关许可证要求和归属要求，甚至可以使用提取自代码片段的整个库。

Chat中文版

但很难评估开发人员所关注问题的规模 — GitHub先前表示，当激活时，其重复检测功能仅会触发“少于1%”的时间。即使如此，通常是当有一个几乎为空且缺乏本地上下文的文件时才会触发 — 因此在这些情况下，更有可能提出与其他地方编写的代码匹配的建议。

麦金利表示：“我们平台上有超过1亿开发者，各种意见都很多。开发者之间在关心的事情上也有很多意见分歧。因此，我们试图积极回应社区的反馈，采取措施来让Copilot成为对开发者而言更好的产品和体验。”

接下来呢？

欧盟人工智能法案的进展只是个开始 — 现在我们知道它一定会实施，并且知道它会以怎样的形式实施。但至少还需要几年时间，企业才需要遵守这项法案 — 就像当时企业为了符合数据隐私领域的GDPR法规而做好准备一样。

麦金利说：“我认为[技术]标准将在这一切中发挥重要作用。我们需要考虑如何制定统一的标准，让公司能够遵守。以GDPR为例，人们设计了各种不同的隐私标准以实现统一。我们知道随着AI法案的实施，会出现不同的利益诉求，都在努力找出如何实施的方法。因此，我们要确保给开发者和开源开发者在这些讨论中发声的机会。”

除此之外，更多的监管政策正在蠢蠢欲动。拜登总统最近发布了一项行政命令，旨在为人工智能的安全与安全设定标准，这让我们一窥欧洲和美国在监管方面可能会有所不同的细节，尽管它们确实有类似的“风险为基础”方法。

麦金利表示：“我会说欧盟的人工智能法案是基于‘基本权利’，就像你在欧洲所期望的那样。而美国方面非常重视网络安全和深度伪造视频等方面。但在很多方面，它们都聚焦在风险场景上 —— 我认为采取基于风险的方法是值得赞同的，这是正确的思考方式。”