Profluent是由Salesforce研究驱动并得到Jeff Dean支持,利用人工智能来发现药物
去年,以云销售支持软件(和Slack)而闻名的Salesforce公司,发起了一个名为ProGen的项目,利用生成式人工智能设计蛋白质。研究计划ProGen,如果投放市场,据其研究人员在2023年1月的博客文章中声称,可以更具成本效益地揭示医疗治疗方法,胜过传统方法。
ProGen项目在《自然生物技术》杂志上发表的研究表明,人工智能成功地创建了人工蛋白的三维结构。但除了论文之外,在Salesforce或其他地方,该项目并没有在商业意义上取得太大进展。
直到最近为止。
负责ProGen项目的研究人员之一Ali Madani创立了一家公司Profluent,希望将类似的蛋白质生成技术带出实验室,交给制药公司们。在接受TechCrunch采访时,Madani描述Profluent的使命是“扭转药物开发范式”,从患者和治疗需求开始,逆向创造“量身定制”的治疗方案。
马达尼说:“许多药物-比如酶和抗体-由蛋白质组成。因此,最终受益的是将接受人工智能设计的蛋白质作为药物的患者。”
在Salesforce的研究部门工作期间,Madani发现自己被自然语言(如英语)和蛋白质的“语言”之间的相似之处所吸引。蛋白质是由氨基酸链结合在一起,在身体中用于各种用途,从合成激素到修复骨骼和肌肉组织,Madani发现可以像段落中的词一样处理蛋白质。通过将蛋白质的数据输入到生成式人工智能模型中,可以用来预测具有新功能的全新蛋白质。
Profluent公司的创始人马达尼和合伙人亚历山大·米斯克,一位华盛顿大学微生物学助理教授,旨在将这一概念应用到基因编辑领域,更进一步地发展。
Madani表示:“许多遗传性疾病无法通过直接从自然界提取的【蛋白质或酶】来修复。”“此外,混合匹配的基因编辑系统在新功能方面存在功能权衡,显著限制了其作用范围。相比之下,Profluent能够同时优化多个属性,实现定制设计的【基因】编辑器,完全符合每位患者的需求。”
这并非偶然。其他公司和研究团队已经展示了可行的途径,利用生成式AI来预测蛋白质。
2022年,英伟达发布了一种生成式人工智能模型MegaMolBART,它是在数百万分子的数据集上训练的,用于搜索潜在的药物靶点并预测化学反应。Meta公司训练了一个名为ESM-2的模型,用于蛋白质序列,该公司声称这种方法使他们可以在短短两周内预测超过6亿个蛋白质的序列。谷歌的人工智能研究实验室DeepMind拥有一个名为AlphaFold的系统,可以预测完整的蛋白质结构,实现的速度和准确度远远超过旧的,不太复杂的算法方法。
Profluent正在利用庞大的数据集来训练AI模型——这些数据集包含超过400亿个蛋白质序列——以创建新的基因编辑和蛋白生产系统,同时对现有系统进行微调。这家初创公司计划与外部合作伙伴合作,而非自行开发治疗方案,以生产具有最有希望获得批准的“基因药物”。
Madani声称这种方法可以显著减少通常需要开发一种治疗方法所需的时间和资本。据工业集团PhRMA称,从最初的发现到获得监管批准,平均需要10-15年时间来开发一种新药。与此同时,最近的估算表明,开发一种新药的成本在数亿美元至28亿美元之间。
Madani说:“许多具有重大影响力的药物实际上是偶然发现的,而不是有意设计的。” “[Profluent]的能力为人类提供了一个机会,让我们从生物领域中最需要的解决方案的偶然发现转变为有意的设计。”
总部位于伯克利的Profluent有20名员工,得到了风投巨头的支持,包括Spark Capital(领导了公司最近的3500万美元融资),Insight Partners,Air Street Capital,AIX Ventures和Convergent Ventures。谷歌首席科学家Jeff Dean也有贡献,为该平台增添了更多的可信度。
Profluent接下来几个月的重点将是升级其人工智能模型,其中一部分是通过扩大训练数据集,Madani说,并加强客户和合作伙伴的获取。它必须积极行动;竞争对手,包括EvolutionaryScale和Basecamp Research,正在快速训练他们自己的蛋白生成模型,并筹集大笔风投资金。
“我们已经开发了我们的初始平台,并展示了基因编辑方面的科学突破,” Madani说。“现在是时候扩大规模,并与能够满足我们对未来抱负的合作伙伴开始提供解决方案了。”