Reddit表示迄今为止已经通过授权数据赚取了2.03亿美元
Reddit向股市上市的前景更多地取决于与AI供应商,如OpenAI等的关系,这点远比人们想象的要重要。
在今天提交给美国证券交易委员会的IPO招股书中,Reddit反复强调了它认为通过与训练AI模型的公司达成的数据许可协议,它可以获得多少好处,也已经从中获益多少。Reddit拥有超过10亿帖子和超过160亿评论。
“2024年1月,我们与某些数据许可安排达成协议,总合同价值为2.03亿美元,合同期为两至三年,”招股说明书中写道,“预计2024年12月31日结束的年度将认定至少6,640万美元的收入,其余款项将在其后确定。”
目前,有关哪些人工智能供应商正在从Reddit获得数据,仍然是一个谜。本周早些时候,彭博社和路透社报道说,一家“未具名的大型人工智能公司”——可能是谷歌——已达成一项价值约6千万美元的年度许可协议。但OpenAI也不会是一个令人惊讶的客户,尤其是考虑到OpenAI首席执行官萨姆·阿尔特曼持有Reddit 8.7%的股份(他是第三大股东),曾经是该公司董事会成员。
为什么Reddit的数据很有价值?正如Reddit解释的那样,AI模型通过例子“学习”,从而创作文章、代码、电子邮件、文章等等,像OpenAI这样的供应商会从网上搜集数百万到数十亿个这样的例子,以加入到他们的训练集中。有些例子是公共领域的,而有些则不是,或者像Reddit的内容那样,受到需要引用或特定形式补偿的限制性许可。
Reddit以前并没有为人工智能训练目的限制其数据的获取。但去年改变了态度,认为其数据不应该免费提供给CEO史蒂夫·赫夫曼所说的“世界上一些最大的公司”。
“我们的数据API能够提供对体育、电影、新闻、时尚和最新趋势等不断变化和动态话题的实时访问,”招股说明书继续说道。“我们相信Reddit庞大的对话数据和知识库将继续在训练和改进大型语言模型方面发挥作用。随着我们的内容每天更新和增长,我们预计模型将希望反映这些新思维,并使用Reddit数据更新他们的训练。”
从库存媒体库到新闻出版商,内容生产者越来越倾向于与AI供应商签订数据许可协议,因为像OpenAI的ChatGPT和谷歌的Gemini这样的聊天机器人会威胁到流量。《大西洋月刊》最近的一个模型发现,如果谷歌这样的搜索引擎将AI整合到搜索中,它会在不要求用户点击其网站的情况下,75%的时间内回答用户的查询。
供应商们受到诉讼的威胁,他们被迫寻求许可协议,因为他们面临着一系列诉讼,指控他们未经许可或支付就在数据上训练模型没有法律依据。最近,纽约时报指责 OpenAI 利用其作品有效地建立与新闻发布商竞争,损害了其业务。
OpenAI已经与图库Shutterstock以及出版商Axel Springer达成协议。Axel Springer是Politico和Business Insider的所有者。然而,据报道,这些许可证金额相对较小,每年最高为500万美元。