你现在能听到我说话吗?人工智能声学技术用来对抗嘈杂的音频
嘈杂的采访录音和演讲是音频工程师的苦恼所在。但一家德国创业公司希望通过一种独特的技术手段来解决这个问题,他们利用生成式人工智能技术来提高视频中声音的清晰度。
今天,AI-coustics以190万欧元的资金从隐身状态中脱颖而出。根据联合创始人兼首席执行官法比安·塞佩尔(Fabian Seipel)的说法,AI-coustics的技术不仅仅局限于标准的降噪,而是可以在任何设备和扬声器上进行工作。
Seipel在接受TechCrunch采访时表示:“我们的核心使命是要让每一次数字互动,不论是在电话会议、消费者设备还是社交媒体视频上,都像专业工作室的广播一样清晰。”
塞佩尔是一位音频工程师,他于2021年与柏林工业大学的机器学习讲师科文·耶迪克共同创立了AI-coustics。塞佩尔和耶迪克在柏林工业大学学习音频技术时相识,他们经常在在线课程和教程中遇到较差的音频质量。
Seipel说:“我们一直受到个人使命的驱使,要克服数字沟通中普遍存在的音质差的挑战。尽管我在二十多岁时由于音乐制作而略微听力受损,但我一直在努力解决在线内容和讲座的问题,这促使我们首先着手解决演讲质量和可懂性的问题。”
AI 动力噪音抑制、声音增强软件的市场已经非常强劲。AI-coustics 的竞争对手包括 Insoundz 使用生成式人工智能增强流媒体和预先录制的语音剪辑,以及 Veed.io,一个视频编辑套件,具有去除剪辑背景噪音的工具。
但Seipel表示,AI-coustics在开发实际进行降噪工作的AI机制方面有独特的方法。
这家初创公司使用在其位于柏林的工作室录制的语音样本进行训练的模型,柏林是AI-coustics的总部所在地。人们会收到报酬来录制样本,Seipel不愿透露具体金额,然后这些样本会被添加到数据集中,用来训练AI-coustics的降噪模型。
Seipel说:“我们开发了一种独特的方法,在训练过程中模拟音频的各种问题和瑕疵,比如噪音、混响、压缩、带限制的麦克风、失真、裁剪等等。”
我敢打赌,一些人会对AI-coustics为创作者提供一次性补偿方案表示异议,因为这家初创公司正在培训的模型可能在长期内非常赚钱。(关于为AI模型的训练数据创作者是否应该得到贡献的回报存在激烈的讨论。)但也许更大的、更紧迫的问题是偏见。
众所周知,语音识别算法可能存在偏见,这些偏见最终会对用户造成伤害。《美国国家科学院院刊》发表的一项研究显示,领先公司的语音识别系统更容易将黑人演讲者的音频不正确地转录为白人演讲者的两倍。
为了应对这个问题,Seipel表示AI-coustics正致力于招募“多样化”的语音样本贡献者。他补充道:“规模和多样性对消除偏见、使技术适用于所有语言、说话者身份、年龄、口音和性别至关重要。”。
这并不是最科学的测试,但是我上传了三个视频剪辑——一个18世纪农民的采访、一段汽车驾驶示范和以色列-巴勒斯坦冲突抗议——到AI-coustics的平台上,以查看它们的表现如何。AI-coustics确实实现了它提升清晰度的承诺;在我听来,处理后的视频剪辑中环境背景噪音明显减少,不会淹没讲话者的声音。
这是18世纪农民的视频片段。
https://techcrunch.com/wp-content/uploads/2024/03/采访一位87岁农民-1929.mp3
之后:
请查看以下链接:https://techcrunch.com/wp-content/uploads/2024/03/对一位87岁农民的访谈-由声学增强的1929全文.mp3
Seipel看到AI-coustics的技术可以在实时和录音的语音增强中使用,并且甚至可能被嵌入到声音棒、智能手机和耳机等设备中,以自动提升声音清晰度。目前,AI-coustics提供用于后处理音频和视频录音的网络应用程序和API,以及一个SDK,将AI-coustics平台引入现有的工作流程、应用程序和硬件中。
Seipel表示,AI-coustics通过订阅、按需定价和许可证的混合方式赚钱,目前有五家企业客户和2万名用户(尽管并非所有用户都付费)。未来几个月的路线图包括扩大公司的四人团队和改进基础语音增强模型。
在我们最初的投资之前,Seipel说AI-coustics曾经进行了相当精益的运营,低燃烧速率,以便在风投市场的困难中生存下来。现在,AI-coustics在德国和英国拥有一个庞大的投资者和导师网络以获取建议。强大的技术基础和能够利用相同的数据库和核心技术来开拓不同市场,给予公司灵活性和小幅调整的能力。
当被问及像AI-音效技术这样是否会夺走一些学者担心的工作时,Seipel指出AI-音效技术有潜力加快目前由人类音频工程师负责的耗时任务。
“一个内容创作工作室或广播经理可以通过使用AI声学技术自动化音频制作过程的部分环节来节省时间和金钱,同时保持最高的语音质量。”他说道,“语音质量和可理解性仍然是几乎每个消费者或专业设备以及内容制作或消费中令人困扰的问题。每一个录制、处理或传输语音的应用都有可能从我们的技术中受益。”
资金来自Connect Ventures、Inovia Capital、FOV Ventures和Ableton首席财务官Jan Bohl。其中包括股权和债务。