Vana计划让用户出租他们的Reddit数据来训练人工智能

Chat中文版

在生成式人工智能的繁荣中，数据就像新的石油。那么为什么你不可以出售自己的数据呢？

从大型科技公司到初创公司，人工智能制造商们正在从数据经纪人那里获取电子书、图片、视频、音频等许可，以培训更具能力（以及更具法律防御力）的人工智能产品。Shutterstock与Meta、谷歌、亚马逊和苹果达成协议，为模型训练提供数百万张图片，而OpenAI已与几家新闻机构签署协议，以训练其模型使用新闻档案。

在许多情况下，那些数据的个人创建者和所有者并没有分得其中一分钱。一家名为Vana的创业公司希望改变这种情况。

Anna Kazlauskas 和 Art Abal 在麻省理工媒体实验室的一堂关注新兴市场科技的课堂上相识，于2021年共同创立了Vana。在加入Vana之前，Kazlauskas 在麻省理工学院学习计算机科学和经济学，并最终离开学校创建了一家金融科技自动化初创公司 Iambiq，出自 Y Combinator。而 Abal 在接受培训和教育时是一名公司律师，之前在波士顿咨询公司 The Cadmus Group 担任助理，后来负责数据标注公司 Appen 的影响采购工作。

瓦纳、卡兹劳斯卡斯和阿巴尔开始建立一个平台，让用户可以将他们的数据（包括聊天记录、语音录音和照片）汇集到数据集中，然后用于生成式AI模型训练。他们还希望通过在这些数据上调整公共模型，创建更加个性化的体验，比如基于您的健康目标的每日激励语音信箱，或者理解您风格偏好的艺术生成应用程序。

卡兹劳斯卡斯告诉TechCrunch，“Vana的基础设施实际上创建了一个用户拥有的数据库。” “通过允许用户以非托管方式聚合他们的个人数据来实现这一点……Vana允许用户拥有人工智能模型，并在人工智能应用程序中使用他们的数据。”

这是Vana如何向开发者推广其平台和API的方式：

在Vana 创建账号相当简单。确认电子邮件后，您可以将数据附加到数字化的头像上（比如自拍照、个人描述和语音录音），并探索使用Vana平台和数据集构建的应用程序。应用的选择范围从ChatGPT风格的聊天机器人和互动故事书到Hinge档案生成器。

Chat中文版

现在，你可能会问，在这个日益增加的数据隐私意识和勒索软件攻击的时代，为什么会有人愿意向一个匿名初创企业，更不用说一个风险投资支持的企业，自愿提供个人信息呢？（Vana目前已从范式、Polychain Capital和其他支持者那里筹集了2000万美元。）任何以利润为驱动的公司真的可以信任不滥用或不正确处理它所获得的任何可商业化的数据吗？

Chat中文版

对于这个问题，卡兹劳斯卡斯强调Vana的整个目的是让用户“重新获得对自己数据的控制”，并指出Vana用户可以选择自行托管数据，而不是存储在Vana的服务器上，并控制他们的数据如何与应用程序和开发人员共享。她还认为，因为Vana通过向用户收取每月订阅费（从3.99美元起）以及向开发人员征收“数据交易”费（例如用于转移数据集进行AI模型训练），公司没有动机利用用户和他们携带的大量个人数据。

“我们希望打造属于用户所有并由用户共同管理的模型，所有用户都能贡献他们的数据，同时允许用户将他们的数据和模型带到任何应用程序中。” Kazlauskas表示。

现在，尽管Vana声称不会向公司出售用户数据用于生成式AI模型训练，但如果用户选择，它希望允许用户自己进行这个操作 - 从他们的Reddit帖子开始。

本月，Vana推出了他们称之为Reddit数据DAO（数字自治组织）的项目，该项目汇集了多个用户的Reddit数据（包括他们的声望和帖子历史），并让他们一起决定如何使用这些结合的数据。加入Reddit账户后，向Reddit提交数据请求并将数据上传到DAO，用户将获得与DAO其他成员一起投票的权利，决定是否将结合的数据授权给生成式人工智能公司以共享利润。

这可以说是对Reddit最近商业化数据的举措的一种回应。

Reddit此前没有为生成式人工智能训练目的设置访问限制，但在去年年底改变了主意，这是在其上市前。自政策变更以来，Reddit已经从包括谷歌在内的公司那里收取了超过2.03亿美元的许可费。

“DAO的广泛理念是将用户数据从那些试图囤积和变现用户数据的主要平台中解放出来。”Kazlauskas说。“这是一项首创，也是我们推动帮助人们将数据汇集到用户拥有的数据集中，用于训练人工智能模型的一部分。”

毫不奇怪，Reddit并未与Vana在任何官方容量上合作，对于DAO并不满意。

Reddit 禁止了 Vana 专门讨论 DAO 的 Subreddit。Reddit 的一位发言人指责 Vana “利用” 其数据导出系统，该系统旨在遵守诸如 GDPR 和加州消费者隐私法等数据隐私法规。

“我们的数据安排使我们能够对这些实体设置防护栏，甚至对公开信息也是如此，”发言人告诉TechCrunch。“Reddit不会与商业企业分享非公开的个人数据，当Reddit用户要求我们导出他们的数据时，他们会根据适用法律从我们那里收到非公开的个人数据。Reddit与经过审核的组织之间的直接合作，具有明确条款和问责制，这些合作和协议能够防止对个人数据的滥用和侵害。”

但Reddit真的有必要担心吗？

Kazlauskas设想DAO发展到一定程度，会影响Reddit向客户收费的数据。这离目前还有很长的路要走，假设它真的发生了；目前DAO只有超过141,000名成员，相对于Reddit拥有7300万用户的用户群体来说只是一小部分。而且这些成员中可能有一些是机器人或重复账户。

然后还有一个问题，如何公平分配DAO可能从数据买家那里收到的付款。

目前，DAO奖励“代币”——加密货币——给用户，根据他们在Reddit上的声望。但声望可能不是衡量对数据集贡献质量最好的标准——特别是在更小的Reddit社区，机会较少的情况下。

Kazlauskas提出了一个主意，即DAO的成员可以选择分享他们的跨平台和人口统计数据，这样可以使DAO变得更有价值，同时激励用户注册。但这也意味着用户需要更多地信任Vana，让其负责处理他们的敏感数据。

就个人而言，我并不认为Vana的DAO会达到临界质量。阻碍其发展的障碍实在太多了。不过，我认为这不会是最后一次草根尝试控制日益被用来训练生成式AI模型的数据。

像Spawning这样的初创企业正在研究让创作者能够制定规则，指导如何使用他们的数据进行训练，而像Getty Images、Shutterstock和Adobe这样的供应商则继续尝试不同的补偿方案。但目前还没有人找到解决之道。这个问题能够解决吗？考虑到生成式人工智能行业的激烈竞争，这确实是一项艰巨的任务。但也许有人会找到解决办法，或者政策制定者会强制执行解决方案。