DeepMind的新人工智能为视频生成配乐和对话

Chat中文镜像

DeepMind，谷歌的人工智能研究实验室，表示正在开发人工智能技术，用于为视频生成配乐。

DeepMind在官方博客上表示，它认为V2A技术（即“视频转音频”）是AI生成媒体拼图中的一个重要组成部分。尽管包括DeepMind在内的许多机构已经开发了视频生成的AI模型，但这些模型不能创造与它们生成的视频同步的音效。

DeepMind写道：“视频生成模型正在以惊人的速度发展，但许多当前系统只能生成无声输出。V2A技术可能成为将生成的电影变得生动起来的一种有希望的方法。”

DeepMind的V2A技术通过对声音描述（例如“水下海蜇脉动，海洋生物，海洋”）与视频进行配对，创造与视频中角色和情感相匹配的音乐、音效甚至对话，使用DeepMind的SynthID技术进行水印处理，以应对深度伪造现象。DeepMind表示，驱动V2A的人工智能模型是一种扩散模型，经过对声音和对话文本以及视频片段的组合进行训练。

根据DeepMind称：“通过在视频、音频和额外的注释上进行训练，我们的技术学会将特定的音频事件与不同的视觉场景联系起来，并在回应注释或文字稿提供的信息的同时进行学习。”

关于训练数据是否受版权保护以及数据的创建者是否被通知了DeepMind的工作，目前还没有消息。我们已经联系了DeepMind澄清情况，如果他们回复了我们，我们会更新这篇文章。

基于人工智能的声音生成工具并不是什么新鲜事物。初创公司Stability AI上周刚发布了一个，而ElevenLabs在五月份也推出了一个。而用于制作视频音效的模型也不少。微软的一个项目可以从静止图像生成说话和唱歌的视频，而像Pika和GenreX这样的平台已经训练出模型，能够从视频中猜测出在特定场景中适合的音乐或效果。

但DeepMind声称，其V2A技术独特之处在于它能够理解视频中的原始像素，并自动将生成的声音与视频同步，可选择不使用描述。

V2A并不完美，DeepMind也承认这一点。因为底层模型没有在大量带有伪影或失真的视频上训练过，所以对这些视频生成的音频质量并不特别高。总的来说，生成的音频并不十分令人信服；我的同事Natasha Lomas形容它为“一堆老套的声音”，我也不能不同意。

因此，为了防止滥用，DeepMind表示不会立即或可能永远不会将这项技术发布给公众。

“为了确保我们的V2A技术对创意社区产生积极影响，我们正在收集来自顶尖创作者和电影制作人的多元视角和见解，并利用这些宝贵的反馈信息来指导我们持续的研究和开发，”DeepMind写道。“在我们考虑向更广泛的公众开放访问之前，我们的V2A技术将经过严格的安全评估和测试。”

DeepMind将其V2A技术推销为特别适用于档案馆员和处理历史影像的人。但是，沿着这些方向的生成式人工智能也会威胁到电影和电视行业。需要一些严格的劳工保护措施，以确保生成式媒体工具不会消灭工作岗位，甚至是整个专业。

推荐阅读

由YC支持的Hona旨在减少律师事务所和其客户之间的沟通摩擦

曼尼·格里菲斯在妻子发生车祸后与一位人身伤害律师合作时，对律师在处理索赔事宜时缺乏信息和沟通感到惊讶。

2024-06-171573