Intron Health 公司的能够识别非洲口音的语音识别工具获得支持。

AI7号2024-07-252491

Chat中文镜像

语音识别正逐渐融入现代生活的几乎所有方面,但仍存在一个巨大的差距:少数民族语言使用者、口音浓重者或有口吃等言语障碍的人,通常较难使用控制应用程序、转录或自动执行任务等功能的语音识别工具。

临床语音识别初创公司 Intron Health 的创始人兼首席执行官托比·奥拉通吉(Tobi Olatunji)希望弥合这一差距。他声称,Intron 拥有非洲最大的临床语音数据库,其算法基于来自超过 18,000 名贡献者(主要是医疗从业者)的 350 万个音频片段(16,000 小时)进行训练,这些贡献者来自 29 个国家,涵盖 288 种口音。奥拉通吉表示,大部分贡献者来自医疗保健领域,这确保了医疗术语的发音和采集对于其目标市场来说是准确无误的。

他说:“因为我们已经针对许多非洲口音进行了训练,所以他们使用我们服务的基准性能很可能会比使用其他任何服务都要好得多。”他还补充道,来自加纳、乌干达和南非的数据正在不断增加,这家初创公司有信心在这些地方部署该模型。

奥拉通吉对健康科技的兴趣源于他的两段经历。首先,他在尼日利亚接受了培训并成为了一名医生,在那里他亲眼目睹了该市场医疗系统的低效,包括需要填写大量的文书工作,以及追踪所有这些工作是多么困难。

他说:“几年前我在尼日利亚当医生的时候,甚至在医学院期间以及现在,我很容易对那些不值得耗费人力的重复性任务感到恼火。一个简单的例子是,我们必须在每份实验室检查单上写上患者的姓名。就拿一个简单的情况来说,假设我在看诊患者,他们需要一些处方,需要做一些检查。我就得为他们手动填写每一份单子。要在每张单子上一遍又一遍地重复填写患者姓名、年龄、日期等等,这让我感到非常沮丧……我总是在问,我们怎样才能把事情做得更好?我们怎样才能让医生的生活更轻松?我们能否把一些任务拿掉,转交给另一个系统,这样医生就能把时间花在更有价值的事情上?”

这些问题促使他进入了人生的下一个阶段。奥拉通吉搬到了美国,起初在旧金山大学攻读医学信息学硕士学位,然后在佐治亚理工学院攻读计算机科学硕士学位。

随后,他在多家科技公司积累了经验。在旧金山湾区的 Enlitic 公司,作为临床自然语言编程(NLP)科学家和研究员,他构建模型,实现从放射学文本报告中自动提取信息。他还曾在亚马逊网络服务公司担任机器学习科学家。在 Enlitic 和亚马逊,他都专注于医疗保健领域的自然语言处理,致力于打造能让医院更高效运作的系统。

在这些经历中,他开始构思如何将美国正在开发和使用的东西用于改善尼日利亚以及其他类似新兴市场的医疗保健状况。

Intron Health 于 2020 年推出,其最初目标是通过电子病历(EMR)系统实现非洲医院运营的数字化。但奥拉图尼吉(Olatunji)表示,推广工作颇具挑战:事实证明,医生们更愿意手写而非打字。

这促使他去探索如何改善那个更基本的问题:如何让医生的基础数据输入、书写和工作更有效。起初,该公司研究了第三方解决方案,以实现诸如记录笔记等任务的自动化,并将现有的语音转文本技术嵌入其电子病历(EMR)程序中。

然而,由于不断出现错误的转录,出现了很多问题。奥拉通吉清楚地意识到,浓重的非洲口音以及复杂的医学术语和名称的发音,使得采用现有的国外转录工具变得不切实际。

这标志着 Intron Health 语音识别技术的起源,该技术能够识别非洲口音,并且还能集成到现有的电子病历系统(EMRs)中。迄今为止,该工具已在包括肯尼亚和尼日利亚在内的五个市场的 30 家医院得到采用。

已经有了一些立竿见影的积极成果。奥拉通吉说,在一个案例中,Intron Health 已帮助将西非最大的一家医院的放射学检查结果等待时间从 48 小时缩短至 20 分钟。这种效率在医疗服务提供方面至关重要,尤其是在非洲,那里的医患比例仍是世界上最低的之一。

他说:“医院在设备和技术上已经投入了很多……确保他们应用这些技术很重要。我们能够提供价值,帮助他们提高电子病历系统的采用率。”

展望未来,这家初创公司正在探索新的增长领域。它获得了由 Microtraction 领投、Plug and Play Ventures、Jaza Rift Ventures、Octopus Ventures、Africa Health Ventures、OpenseedVC、Pi Campus、Alumni Angel、Baker Bridge Capital 和几位天使投资人参与的 160 万美元的种子前轮融资。

在技术方面,Intron Health 正在努力完善噪音消除功能,并确保该平台即使在低带宽下也能良好运行。此外,还要实现多说话者对话的转录,并整合文本转语音功能。

奥拉通吉表示,该计划是为处方或实验室检测等任务添加智能系统或决策支持工具。他补充说,这些工具除了能加快医生的工作速度外,还有助于减少医生的失误,并确保为患者提供充分的护理。

Intron Health 是医疗领域中越来越多的生成式人工智能初创公司之一,包括微软的 DAX Express,它们能在数秒内生成记录,从而减少临床医生的行政任务。据《财富商业洞察》报道,随着全球语音和语音识别市场预计到 2032 年价值将达到 849.7 亿美元,从 2024 年起复合年增长率为 23.7%,这些技术应运而生并得到采用。

除了开发语音技术,Intron 在非洲的语音研究中也发挥着关键作用。最近,它与谷歌研究、比尔及梅琳达·盖茨基金会以及 PATH 旗下的 Digital Square 合作,在 15 个国家对流行的大型语言模型(LLM)进行评估,如 OpenAI 的 GPT-4o、谷歌的 Gemini 和 Anthropic 的 Claude,以确定这些语言模型的优势、劣势以及存在偏差或造成危害的风险。这一切都是为了确保为非洲的诊所和医院提供符合文化背景的模型。