稳定AI发布了一款声音发生器

AI7号2024-06-052774

Chat中文镜像

稳定AI是AI艺术生成器Stable Diffusion背后的初创公司,已经发布了一个开放的AI模型,用于生成声音和歌曲,据称是专门在免版税录音上训练的。

稳定音频开放(Stable Audio Open)是一种生成模型,它接受文本描述(例如:“在处理过的录音室中演奏的摇滚节拍,使用原声鼓套进行会话鼓演奏”),并输出长达47秒的录音。该模型是使用来自免费音乐库FreeSound和免费音乐存档的约486,000个样本进行训练的。

Stability AI表示该模型可以用于创作鼓点、乐器旋律、环境音以及影视作品的“制作元素”,还可以用来“编辑”现有歌曲或将一首歌的风格(比如柔和爵士乐)应用到另一首歌中。

稳定性人工智能在公司博客的一篇文章中写道:“这个开源版本的一个关键优点是用户可以根据自己的自定义音频数据对模型进行微调。”“例如,鼓手可以使用自己鼓录音的样本进行微调,生成新的节奏。”

稳定音频开放虽然有其局限性。它无法制作完整的歌曲、旋律或人声 - 至少不能做好的。稳定AI表示它没有针对这个进行优化,并建议寻找这些功能的用户选择公司的高级稳定音频服务。

稳定音频开放也不能用于商业目的;它的服务条款禁止这样做。它在不同音乐风格和文化中的表现也并不一致,并且对非英语描述的表现也不佳 — 这些偏见稳定AI归咎于训练数据。

稳定性人工智能在模型描述中写道:“数据来源可能缺乏多样性,数据集中并不平等地代表所有文化。从模型生成的样本会反映出训练数据中的偏见。”

稳定人工智能一直在努力振兴业务,最近成为争议的话题。因为其生成音频副总裁Ed Newton-Rex因与公司立场不一而辞职,公司认为对受版权保护的作品进行生成人工智能模型训练构成了“合理使用”。稳定音频开放似乎是企图改变这一故事情节的举措,同时也不那么含蓄地宣传稳定人工智能的付费产品。

随着Stability等音乐生成器越来越受欢迎,版权问题以及一些生成器的创作者可能滥用版权的方式成为了关注的焦点。

今年五月,代表比利·乔尔、Doja Cat 和 Lil Nas X 等艺人的索尼音乐公司,向700家人工智能公司发出警告信,禁止未经授权使用其内容来训练音频生成器。三月份,美国在田纳西州通过了旨在遏制音乐领域人工智能滥用的第一部法律。