拥抱式人工智能发布了一个用于测试在健康任务上生成式AI的基准
生成式人工智能模型正在越来越多地应用于医疗环境中,有些情况下可能过早地引入。早期采用者认为这些模型将提高效率,同时揭示出否则可能被忽视的见解。与此同时,批评者指出这些模型存在缺陷和偏见,可能导致更糟糕的健康结果。
但是否有一种定量的方法来了解当模型被用于总结病人记录或回答与健康相关的问题时,它可能会是多么有益或有害呢?
人工智能初创公司“拥抱面孔”提出了一项新发布的基准测试解决方案,名为Open Medical-LLM。这个项目是与非营利性组织Open Life Science AI和爱丁堡大学自然语言处理组的研究人员合作创建的,旨在标准化评估生成式人工智能模型在各种医疗相关任务上的表现。
Open Medical-LLM并不是一个完全新的基准,而是将现有的测试集(如MedQA、PubMedQA、MedMCQA等)拼接在一起,旨在测试模型对于一般医学知识以及相关领域(如解剖学、药理学、遗传学和临床实践)的理解能力。该基准包含多项选择和开放式问题,需要进行医学推理和理解,涉及美国和印度医学执照考试以及大学生物学考试题库等资料。
“[开放医疗-LLM]使研究人员和实践者能够识别不同方法的优势和劣势,推动领域的进一步发展,最终为患者的护理和治疗结果做出更大的贡献,”Hugging Face 在一篇博客文章中写道。
Hugging Face将该基准定位为对医疗绑定生成式人工智能模型的“稳健评估”。但一些社交媒体上的医疗专家警告称,不要过分依赖Open Medical-LLM,以免导致知识不足的部署。
在某次讲座中,阿尔伯塔大学神经内科住院医师利亚姆·麦考伊指出,医学问题解答中的“人为环境”与实际临床实践之间的差距可能相当大。
与此博客帖子的共同作者的Hugging Face研究科学家Clémentine Fourrier表示同意。
Fourrier在X上回复道:“这些排行榜只能作为探索特定用例中哪种【生成式AI模型】的第一近似,但之后始终需要进行更深入的测试阶段,以考察模型在真实条件下的限制和相关性。医疗【模型】绝对不应该由患者自行使用,而应该经过培训成为医生的辅助工具。”
这让人想起谷歌在尝试将用于糖尿病视网膜病变的AI筛查工具引入泰国医疗系统时遇到的经历。
Google创建了一个深度学习系统,扫描眼睛的图像,寻找糖尿病视网膜病变的证据,这是导致视力丧失的主要原因之一。但尽管理论上的准确性很高,该工具在实际测试中被证明是不切实际的,给患者和护士带来了不一致的结果和与实际操作缺乏协调的困扰。
值得注意的是,截至目前,美国食品药品监督管理局已批准了139种与人工智能相关的医疗设备,但没有一种使用生成式人工智能。在实验室测试生成式人工智能工具在医院和门诊诊所的表现是非常困难的,更重要的是,随着时间的推移,结果可能会出现何种趋势。
这并不是在暗示Open Medical-LLM没有用处或信息量。至少可以说,结果榜单作为提醒,让人意识到模型在回答基本健康问题时有多么糟糕。但Open Medical-LLM,以及其他任何基准,都不能替代经过慎重考虑的现实世界测试。