这个德国非盈利组织正在构建一个任何人都可以使用的开放式语音助手
目前已经有很多开源的AI语音助手尝试(比如Rhasspy、Mycroft和Jasper等),都旨在创建既能保护隐私、又能离线使用且功能不受影响的体验。但是开发的进展非常缓慢。这是因为除了所有其他开源项目所面临的挑战外,编写一个助手程序本身就很困难。像谷歌助手、Siri和Alexa这样的技术背后经过了多年甚至几十年的研发,并且还有庞大的基础设施支持。
但这并没有阻止德国非营利组织——Large-scale Artificial Intelligence Open Network(LAION)的成员,他们负责维护全球最受欢迎的人工智能训练数据集。本月,LAION宣布了一个名为BUD-E的新倡议,旨在构建一个能在消费者硬件上运行的“完全开放”语音助手。
当已经有无数被放弃的语音助手项目存在时,为什么还要启动一个全新的语音助手项目呢?埃利斯研究所的研究员、BUD-E的贡献者Wieland Brendel认为,目前没有一个开放的语音助手拥有足够可扩展的架构来充分利用新兴的GenAI技术,尤其是类似OpenAI的ChatGPT这样的大型语言模型(LLMs)。
“大多数与[助理]的互动都依赖于聊天界面,但与这些系统对话感觉很笨拙和不自然,” 布伦德尔在与TechCrunch的一封电子邮件采访中说道。 “这些系统可以用来传达控制音乐或打开灯光的指令,但它们不适用于长时间而有趣的对话基础。 BUD-E 的目标是提供一个更符合人类自然感觉的语音助理基础,模仿人与人之间的自然语言模式并记住过去的对话。”
Brendel表示,LAION还希望确保BUD-E的每个组件最终都能与应用程序和服务无版权地集成,甚至商业化运作,这在其他开放助手项目中并不一定是情况。
与图宾根的艾利斯研究院、技术咨询公司Collabora和图宾根人工智能中心合作,BUD-E有着雄心勃勃的发展计划。在一篇博客文章中,LAION团队详细阐述了他们希望在接下来几个月内实现的目标,主要是将“情感智能”融入BUD-E,并确保它能够同时处理多位发言人的对话。
“亟需一个功能良好的自然语音助手。”布伦德尔表示。“LAION在过去已经证明,它在构建社区方面非常出色,而图宾根的ELLIS研究所和图宾根AI中心致力于提供资源来开发这个助手。”
BUD-E已经上线,你今天可以从GitHub上下载并安装在Ubuntu或Windows电脑上(macOS将会推出),但显然它还处于早期阶段。
LAION使用多个开源模型组装了一个MVP,其中包括微软的Phi-2 LLM、哥伦比亚大学的文本转语音StyleTTS2以及英伟达的语音转文本FastConformer。因此,该体验还不够优化。要让BUD-E能在大约500毫秒内响应指令,需要像英伟达的RTX 4090这样强大的GPU,这与谷歌助手和Alexa等商用语音助手的要求相当。
Collabora正在无偿工作,为BUD-E适配其开源语音识别和文本转语音模型WhisperLive和WhisperSpeech。
“自行开发文本转语音和语音识别解决方案意味着我们可以根据需要进行定制,而通过API公开的封闭模型无法实现这一点。”Collabora和BUD-E团队成员、AI研究员Jakub Piotr Cłapa在一封电子邮件中表示。“Collabora最初开始开发[开放式助手]的部分原因是因为我们在为一个客户开发基于LLM语音代理的文本转语音解决方案时遇到了困难。我们决定与更广泛的开源社区合作,使我们的模型更加普遍可用和有用。”
在短期内,LAION表示他们将致力于减少BUD-E的硬件要求,并降低助手的延迟。长期的目标是建立对话数据集,以优化BUD-E,同时还会建立一个记忆机制,让BUD-E能够存储以前的对话信息,并且建立一个语音处理流程,能够同时追踪多人的对话。
我问团队是否将无障碍性作为优先考虑事项,因为历史上语音识别系统对非英语和非大西洋口音的语言表现不佳。斯坦福大学的一项研究发现,亚马逊、IBM、谷歌、微软和苹果的语音识别系统在听到黑人演讲者和同龄、同性别的白人演讲者时出错的可能性几乎是两倍。
Brendel表示,LAION并没有忽视无障碍性问题,但这对于BUD-E来说并不是“立即关注”的重点。
"首要关注的是在重新定义我们与语音助手的互动体验之前,将该体验普及到更多不同的口音和语言上," 布伦德尔说。
为此,LAION对BUD-E有一些非常颠覆的想法,包括一个动画化的化身来扮演助手的角色,通过网络摄像头来分析用户的面部表情,以了解他们的情绪状态。
毋庸置疑,最后一点——面部分析的伦理问题有些棘手。但是洛杉矶人工智能开发者联盟的联合创始人罗伯特·卡茨马尔奇克强调,洛杉矶人工智能开发者联盟将继续致力于安全。
他通过电子邮件告诉TechCrunch:“我们严格遵守欧盟人工智能法案制定的安全和伦理准则”,此处指的是欧盟对人工智能的销售和使用制定的法律框架。欧盟人工智能法案允许欧盟成员国为“高风险”人工智能(包括情绪分类器)采取更为严格的规定和保障措施。
卡奇马奇克补充道:“致力于透明度不仅有助于早期发现和纠正潜在偏见,还有助于维护科学诚信的事业。” “通过使我们的数据集可访问,我们使更广泛的科学界能够从事符合最高可重现性标准的研究。”
LAION之前的工作在伦理意义上并不完美,并且目前正在推进一个有些具争议的情绪检测项目。但或许BUD-E会有所不同,我们必须等待并观察。