生成式人工智能即将应用于医疗保健领域,不是每个人都感到兴奋
生成式人工智能可以创建和分析图片、文字、音频、视频等各种数据,正在越来越多地进入医疗行业,受到大型科技公司和初创企业的推动。
谷歌云是谷歌的云服务和产品部门,正在与总部位于匹兹堡的非营利医疗公司Highmark Health合作,开发生成式人工智能工具,旨在个性化患者接待体验。亚马逊的AWS部门表示,正在与未透露的客户合作,研究如何利用生成式人工智能分析医疗数据库中的“社会健康因素”。微软Azure正在帮助建立一个生成式人工智能系统,为非营利医疗网络Providerce自动对来自患者的信息进行分类,发送给护理提供者。
在医疗领域中,一些知名的生成式人工智能初创公司包括:Ambience Healthcare,该公司正在为临床医生开发生成式人工智能应用程序;Nabla,一款针对医疗从业者的环境人工智能助手;以及Abridge,专门为医疗文档制作分析工具。
生成式人工智能在医疗领域的投资反映了人们对其的普遍热情。到目前为止,医疗领域的生成式人工智能初创公司已筹集了数千万美元的风险投资,绝大多数医疗投资人表示,生成式人工智能已对他们的投资战略产生了重大影响。
然而,无论是专业人士还是患者,对于以医疗为重点的生成式人工智能是否已经准备好迎接主流时间还存在分歧。
生成式人工智能可能并不是人们想要的。
在最近进行的一项德勤调查中,只有大约一半(53%)的美国消费者表示他们认为生成式人工智能可以改善医疗保健 - 例如,通过使其更易获得或缩短预约等待时间。少于一半的人表示他们预期生成式人工智能可以使医疗保健更加负担得起。
美国退伍军人事务部最大的医疗系统VA Sunshine Healthcare Network的首席人工智能官安德鲁·博尔科夫斯基认为,对人工智能持怀疑态度是有道理的。博尔科夫斯基警告说,生成式人工智能的部署可能过早,因为其具有“显著”的局限性,以及围绕其有效性的担忧。
他告诉TechCrunch说,生成式人工智能的一个关键问题是无法处理复杂的医疗查询或紧急情况。其有限的知识库,即缺乏最新的临床信息,以及缺乏人类专业知识,使其不适合提供全面的医疗建议或治疗建议。
一些研究表明这些观点是有道理的。
在《JAMA儿科学》杂志上的一篇论文中发现,OpenAI的生成式AI聊天机器人ChatGPT在对儿科疾病进行诊断时,错误率高达83%。波士顿贝斯以色列医学中心的医生们在测试OpenAI的GPT-4作为诊断助手时发现,该模型在近三分之二的情况下将错误的诊断结果排在第一位。
如今的生成式人工智能也在医务人员日常工作流程中不可或缺的医疗行政任务上遇到了困难。在MedAlign评估基准上,用来评估生成式人工智能在总结患者健康记录和搜索各种笔记等方面表现如何时,GPT-4 在35% 的案例中失败了。
OpenAI和许多其他生成AI供应商警告不要依赖他们的模型进行医疗建议。但博尔科夫斯基和其他人表示他们可以做得更多。“仅依靠生成AI进行医疗保健可能会导致误诊、不恰当的治疗甚至危及生命的情况,”博尔科夫斯基说道。
简易中文: 在德国杜伊斯堡埃森大学人工智能医学研究所领导人工智能引导疗法的扬·埃格尔与博尔科夫斯基分享了相同的担忧。他认为目前在医疗领域使用生成式人工智能的唯一安全的方式是在医生的密切监督下进行。
Egger说:“结果可能完全错误,而且难以保持意识到这一点的困难程度越来越大。当然,生成式人工智能可以用于预先撰写出院信件等方面。但医生有责任对其进行检查并做出最终决定。”
生成式人工智能可能会使刻板印象持续存在。
在医疗保健中,生成式人工智能特别有害的一种错误方式是通过持续传播刻板印象。
在斯坦福医学2023年的一项研究中,一组研究人员测试了ChatGPT和其他基于生成AI的聊天机器人对肾功能、肺活量和皮肤厚度等问题的回答。研究人员发现,不仅ChatGPT的答案经常错误,而且答案中包含了一些长期存在的错误观念,即黑人和白人之间存在生物学差异,这些不实之词已知会导致医疗提供者误诊健康问题。
具有讽刺意味的是,对于医疗生成AI最有可能受到歧视的患者,也是最有可能使用它的患者。
根据凯撒基金会的研究,缺乏医疗保险的人群主要是有色人种,他们更愿意尝试生成式人工智能来寻找医生或心理健康支持,德勤的调查显示。如果人工智能的建议带有偏见,可能会加剧医疗待遇方面的不平等。
然而,一些专家认为生成式人工智能在这方面正在改进。
根据2023年末微软发布的一项研究,研究人员表示他们利用GPT-4在四项具有挑战性的医学基准上取得了90.2%的准确率。普通的GPT-4无法达到这个分数。但是,研究人员表示,通过提示工程-为GPT-4设计提示以产生特定输出-他们能够将模型的得分提高了高达16.2个百分点。(值得一提的是,微软是OpenAI的主要投资者。)
超越聊天机器人
但是询问聊天机器人问题并不是生成式人工智能的唯一用途。一些研究人员表示,医学影像学可以极大地受益于生成式人工智能的力量。
7月份,一组科学家在《自然》杂志发表的研究中推出了一种称为“互补驱动延迟到临床工作流程 (CoDoC)”的系统。该系统旨在确定医学影像专家何时应该依赖人工智能进行诊断,而不是传统技术。根据共同作者的说法,CoDoC的表现优于专家,同时将临床工作流程减少了66%。
今年11月,一支中国研究团队展示了Panda,这是一个用于检测X光片中潜在胰腺疾病的人工智能模型。一项研究表明,Panda在对这些病变进行分类时具有高度准确性,这些病变通常被检测得太晚无法进行手术干预。
牛津大学的临床研究员阿伦·梯鲁纳瓦卡拉苏表示,生成式人工智能在医疗领域的应用并不“独特”。
“更加平凡的生成式人工智能技术应用在短期和中期是可行的,包括文本校正,自动记录笔记和信件以及改进搜索功能来优化电子病历,”他说。“如果有效的话,生成式人工智能技术完全可以立即在这些领域进行部署,没有任何理由不这样做。”
严谨的科学
然而,尽管生成式人工智能在特定狭窄领域的医学中显示出潜力,博尔科夫斯基等专家指出,在生成式人工智能能够作为全面辅助医疗工具被使用和信任之前,必须克服技术和合规障碍。
博科夫斯基说:“在医疗领域使用生成式人工智能存在着重大的隐私和安全问题。医疗数据的敏感性以及可能的滥用或未经授权访问会严重威胁患者的保密性和对医疗体系的信任。此外,在医疗领域使用生成式人工智能的监管和法律环境仍在不断演变中,关于责任、数据保护和由非人类实体进行医疗实践的问题仍需要解决。”
即使提鲁纳瓦库拉苏对医疗保健中生成式人工智能持乐观态度,他认为面向患者的工具需要有“严谨的科学”支持。
他说:“特别是在没有直接临床医师监督的情况下,应该有实用的随机对照试验来展示临床益处,以证明推广患者对接生成人工智能的合理性。未来进行正确的治理对于在规模化推广后捕捉到任何未预料的伤害至关重要。”
最近,世界卫生组织发布了指南,倡导在医疗保健领域对这种生成式人工智能进行科学和人类监督,同时引入独立第三方对这种人工智能进行审计、透明度和影响评估。世卫组织在其指南中明确表示,目标是鼓励多样化人群参与医疗保健领域生成式人工智能的发展,提供机会让人们提出关切并在整个过程中提供意见。
博尔科夫斯基说:“直到相关问题得到充分解决并采取适当的保障措施,医疗生成人工智能的广泛应用可能对患者和整个医疗行业潜在造成危害。”