拥抱式人工智能发布了一个用于测试在健康任务上生成式AI的基准

Chat中文版

生成式人工智能模型正在越来越多地应用于医疗环境中，有些情况下可能过早地引入。早期采用者认为这些模型将提高效率，同时揭示出否则可能被忽视的见解。与此同时，批评者指出这些模型存在缺陷和偏见，可能导致更糟糕的健康结果。

但是否有一种定量的方法来了解当模型被用于总结病人记录或回答与健康相关的问题时，它可能会是多么有益或有害呢？

人工智能初创公司“拥抱面孔”提出了一项新发布的基准测试解决方案，名为Open Medical-LLM。这个项目是与非营利性组织Open Life Science AI和爱丁堡大学自然语言处理组的研究人员合作创建的，旨在标准化评估生成式人工智能模型在各种医疗相关任务上的表现。

Open Medical-LLM并不是一个完全新的基准，而是将现有的测试集（如MedQA、PubMedQA、MedMCQA等）拼接在一起，旨在测试模型对于一般医学知识以及相关领域（如解剖学、药理学、遗传学和临床实践）的理解能力。该基准包含多项选择和开放式问题，需要进行医学推理和理解，涉及美国和印度医学执照考试以及大学生物学考试题库等资料。

“[开放医疗-LLM]使研究人员和实践者能够识别不同方法的优势和劣势，推动领域的进一步发展，最终为患者的护理和治疗结果做出更大的贡献，”Hugging Face 在一篇博客文章中写道。

Chat中文版

Hugging Face将该基准定位为对医疗绑定生成式人工智能模型的“稳健评估”。但一些社交媒体上的医疗专家警告称，不要过分依赖Open Medical-LLM，以免导致知识不足的部署。

在某次讲座中，阿尔伯塔大学神经内科住院医师利亚姆·麦考伊指出，医学问题解答中的“人为环境”与实际临床实践之间的差距可能相当大。

与此博客帖子的共同作者的Hugging Face研究科学家Clémentine Fourrier表示同意。

Fourrier在X上回复道：“这些排行榜只能作为探索特定用例中哪种【生成式AI模型】的第一近似，但之后始终需要进行更深入的测试阶段，以考察模型在真实条件下的限制和相关性。医疗【模型】绝对不应该由患者自行使用，而应该经过培训成为医生的辅助工具。”

这让人想起谷歌在尝试将用于糖尿病视网膜病变的AI筛查工具引入泰国医疗系统时遇到的经历。

Google创建了一个深度学习系统，扫描眼睛的图像，寻找糖尿病视网膜病变的证据，这是导致视力丧失的主要原因之一。但尽管理论上的准确性很高，该工具在实际测试中被证明是不切实际的，给患者和护士带来了不一致的结果和与实际操作缺乏协调的困扰。

值得注意的是，截至目前，美国食品药品监督管理局已批准了139种与人工智能相关的医疗设备，但没有一种使用生成式人工智能。在实验室测试生成式人工智能工具在医院和门诊诊所的表现是非常困难的，更重要的是，随着时间的推移，结果可能会出现何种趋势。

这并不是在暗示Open Medical-LLM没有用处或信息量。至少可以说，结果榜单作为提醒，让人意识到模型在回答基本健康问题时有多么糟糕。但Open Medical-LLM，以及其他任何基准，都不能替代经过慎重考虑的现实世界测试。

推荐阅读

互联网用户变得年轻化；英国正在权衡是否可以利用人工智能来保护他们

人工智能一直受到政府的关注，他们担心它可能被滥用用于欺诈、虚假信息和其他恶意的在线活动；现在在英国，监管机构正准备探索人工智能在打击一些相同问题上的应用，特别是与危害儿童内容有关的应用。

2024-04-19714

Meta将其由Llama 3提供支持的AI聊天机器人添加到其应用程序中的搜索栏中

Meta今天正在采取几项重大举措，在其平台上推广其人工智能服务。公司已经将最新的大型语言模型Llama 3集成到AI聊天机器人中，并将其部署在其四个主要应用程序Facebook、Messenger、Instagram和WhatsApp的搜索栏中。与此同时，该公司推出了其他...

2024-04-181331

Meta发布Llama 3，声称它是目前最优秀的开放式模型之一

Meta公司发布了其Llama系列开源生成式人工智能模型的最新作品：Llama 3。更准确地说，该公司已经在其新的Llama 3系列中开源了两个模型，其余模型将在未来的某个时间点发布。Meta公司描述了这些新模型——Llama 3 8B，其中包含8亿个参数。

2024-04-181526

ChatGPT现在与Nothing升级的耳塞搭配使用，更加便捷

今天宣布了一对耳机系列的更新。命名规则有点复杂，在这里，Nothing Ear 是 Nothing Ear (2) 的更新版本，而 Nothing Ear (a) 更像是 Nothing Ear Stick 的精神继承者。然而，今天新闻中最引人注目的部分是，...

2024-04-18877

Reddit 首席产品官谈新功能 — 更好的翻译、管理以及开发工具

Reddit今年是一个重要的一年。在进行首次公开招股后，该平台计划推出一系列产品功能，而且大部分都将由人工智能驱动。"我觉得IPO是一个重要的里程碑，但我们只专注于为用户打造产品，" Reddit首席产品官表示。

2024-04-17915