Reliant 的纸张擦洗式人工智能承担了科学领域的数据苦差事
人工智能模型已被证明能够胜任许多事情,但我们实际上希望它们承担哪些任务呢?最好是那些苦差事——而在研究和学术界这类工作有很多。Reliant 希望专门从事那种耗时的数据提取工作,这类工作目前是疲惫的研究生和实习生的专长。
首席执行官卡尔·莫里茨(Karl Moritz)表示:“利用人工智能能做的最棒的事情就是改善人类体验:减少单调乏味的劳动,让人们去做对他们来说重要的事情。”在他和联合创始人马克·贝勒马尔(Marc Bellemare)以及理查德·施莱格尔(Richard Schlegel)工作多年的研究领域,文献综述就是这种“单调劳动”最常见的例子之一。
每篇论文都会引用先前的和相关的研究成果,但在科学的海洋中找到这些来源并非易事。而有些论文,比如系统性综述,会引用或使用来自数千篇文献的数据。
莫利茨回忆起一项研究时说:“作者们不得不查看 3500 份科学出版物,其中很多最终都不相关。花费大量时间却只提取出少量有用信息——这感觉确实应该由人工智能来实现自动化。”
他们知道现代语言模型能够做到这一点:有一项实验让 ChatGPT 执行这项任务,发现它能够提取数据,错误率为 11%。就像语言大模型能做的许多事情一样,这令人印象深刻,但与人们实际需要的相差甚远。
莫里茨说:“那还不够好。对于这些知识任务,尽管可能很琐碎,但不犯错是非常重要的。”
Reliant 的核心产品“Tabular”部分基于大语言模型(LLaMa 3.1),但又通过其他专有技术进行了增强,效果要好得多。在上述数千项研究的提取任务中,他们表示该产品完成相同任务时零错误。
这意味着:您放入一千份文件,比如说您想从中获取这个、那个和其他数据,Reliant 会仔细研究这些文件并找到那些信息——不管它的标签和结构是否完美,或者(更有可能的是)并非如此。然后,它会将所有这些数据以及您想要完成的任何分析放入一个良好的用户界面中,这样您就可以深入研究个别案例。
莫里茨说:“我们的用户需要能够一次性处理所有数据,我们正在构建一些功能,允许他们编辑现有的数据,或者从数据转向文献;我们认为我们的作用是帮助用户找到应该关注的地方。”
这种量身定制且有效的人工智能应用——不像数字好友那样引人注目,但几乎肯定更具可行性——可能会加速众多高技术领域的科学发展。投资者已经注意到了这一点,为一轮 1130 万美元的种子轮融资提供了资金;Tola Capital 和 Inovia Capital 领投,天使投资人迈克·沃尔皮(Mike Volpi)也参与其中。
和任何人工智能应用一样,Reliant 的技术计算强度非常大,这就是该公司购买自己的硬件而非从大型供应商那里按需租用的原因。自行配备硬件既有风险也有回报:你必须让这些昂贵的设备物有所值,但同时你也有机会通过专用计算来攻克问题领域。
莫里茨解释说:“我们发现,如果回答问题的时间有限,要给出一个好答案是非常具有挑战性的。” 例如,如果一位科学家要求系统对一百篇论文执行一项新的提取或分析任务。这可以很快完成,或者做得很好,但不能两者兼得——除非他们能提前预测用户可能会问什么,并提前找出答案或类似的东西。
这家初创公司的首席科学官贝勒马尔说:“问题在于,很多人都有同样的问题,所以我们可以在他们提问之前就找到答案,以此为起点。我们可以将 100 页的文本提炼成别的东西,这可能不是你想要的精确内容,但对我们来说更容易处理。”
这样想一想:如果你要从一千部小说中提取含义,你会等到有人询问角色的名字时才去梳理并获取它们吗?还是你会提前完成这项工作(连同地点、日期、关系等内容),因为你知道这些数据很可能会被需要?当然是后者——如果你有足够的计算能力的话。
这种预提取还让模型有时间解决不同科学领域中不可避免的模糊性和假设。当一个指标“表明”另一个指标时,在制药领域的含义可能与在病理学或临床试验中的含义不同。不仅如此,语言模型往往会根据提问方式的不同而给出不同的输出。因此,莫利茨指出,Reliant 的工作就是将模糊性转化为确定性——“而这只有在你愿意对特定的科学或领域进行投资时才能做到。”
作为一家公司,Reliant 首先关注的是在尝试更雄心勃勃的举措之前,确定这项技术能够自负盈亏。莫里茨说:“为了取得有趣的进展,你必须有远大的愿景,但也需要从具体的事情入手。从初创公司的生存角度来看,我们专注于盈利性公司,因为它们给我们钱来支付我们的 GPU 费用。我们不会亏本卖给客户。”
人们可能会认为该公司会感受到来自 OpenAI 和 Anthropic 等公司的压力,这些公司正投入大量资金处理数据库管理和编码等更结构化的任务,或者来自 Cohere 和 Scale 等实施合作伙伴的压力。但贝勒马尔很乐观:“我们是在热潮中构建这一切的——我们技术栈的任何改进对我们来说都很棒。大型语言模型只是其中可能的八个大型机器学习模型之一——其他的完全是我们专有的,是根据我们专有的数据从头创建的。”
生物技术和研究行业向人工智能驱动的转型无疑才刚刚开始,在未来几年可能还相当零碎。但 Reliant 似乎已经找到了一个坚实的起点。
莫里茨说:“如果你想要 95%的解决方案,偶尔向你的一位客户诚恳道歉就行,那也不错。但我们追求的是精准度和召回率真正重要的地方,是错误真正重要的地方。坦率地说,这就足够了,我们很乐意把其余的部分留给别人。”