Viggle 为表情包和概念可视化打造可控制的人工智能角色
您可能不知道 Viggle AI,但您很可能见过它创作的热门表情包。这家加拿大的人工智能初创公司制作了数十个视频,对说唱歌手利尔·亚奇(Lil Yachty)在夏季音乐节舞台上跳动的画面进行了重新混音。在一个视频中,利尔·亚奇被华金·菲尼克斯(Joaquin Phoenix)饰演的小丑所取代。在另一个视频中,耶稣似乎在煽动人群。用户制作了无数个版本的这个视频,但有一家人工智能初创公司在为这些表情包提供动力。而且 Viggle 的首席执行官表示,YouTube 视频为其人工智能模型提供了燃料。
Viggle 训练了一个 3D 视频基础模型 JST - 1,以拥有“对物理学的真正理解”,正如该公司在其新闻稿中声称的那样。Viggle 的首席执行官杭楚(Hang Chu)表示,Viggle 与其他 AI 视频模型的关键区别在于,Viggle 允许用户指定他们希望角色采取的动作。其他 AI 视频模型往往会创造出不符合物理定律的不切实际的角色动作,但楚声称 Viggle 的模型与众不同。
“我们实质上正在构建一种新型的图形引擎,但完全是基于神经网络,”朱在一次采访中说道。“该模型本身与现有的视频生成器有很大不同,现有的主要是基于像素的,并且并不真正理解物理结构和特性。我们的模型旨在具备这样的理解能力,这就是为什么它在可控性和生成效率方面要好得多。”
例如,要制作小丑版利尔·亚奇蒂(Lil Yachty)的视频,只需上传原始视频(利尔·亚奇蒂在舞台上跳舞)和角色形象(小丑)来采用该动作。或者,用户可以上传角色图片以及带有如何为其制作动画的说明的文本提示。作为第三个选项,Viggle 允许用户仅通过文本提示从零开始创建动画角色。
但这些迷因只占 Viggle 用户的一小部分;Chu 表示,该模型作为创意人员的可视化工具已被广泛采用。这些视频远非完美——画面抖动,人物面无表情——但 Chu 称,事实证明,对于电影制作人、动画师和视频游戏设计师来说,将他们的想法转化为视觉内容是有效的。目前,Viggle 的模型只能创建角色,但 Chu 希望日后能实现更复杂的视频创作。
Viggle 目前在 Discord 及其网络应用程序上提供其人工智能模型的免费、有限版本。该公司还提供 9.99 美元的订阅服务以增加容量,并通过创作者计划为一些创作者提供特殊访问权限。首席执行官表示,Viggle 正在与电影和视频游戏工作室就该技术的授权进行洽谈,但他也看到独立动画师和内容创作者在采用该技术。
周一,Viggle 宣布已完成由安德森·霍洛维茨基金(Andreessen Horowitz)领投、Two Small Fish 跟投的 1900 万美元 A 轮融资。这家初创公司表示,此轮融资将助力 Viggle 扩大规模、加快产品开发并扩充团队。Viggle 向 TechCrunch 透露,它与谷歌云等云服务提供商合作,以训练和运行其人工智能模型。这些与谷歌云的合作通常包括使用 GPU 和 TPU 集群,但通常不包括使用 YouTube 视频来训练人工智能模型。
“Training data”常见释义为“训练数据”
在 TechCrunch 对 Chu 的采访中,我们询问了 Viggle 的人工智能视频模型是基于什么数据进行训练的。
楚说:“到目前为止,我们一直依赖于公开可用的数据。”他的这一说法与 OpenAI 的首席技术官米拉·穆拉蒂关于 Sora 训练数据的回答类似。
当被问及 Viggle 的训练数据集是否包含 YouTube 视频时,Chu 直截了当地回答:“是的。”
这可能是个问题。今年 4 月,YouTube 首席执行官尼尔·莫汉(Neal Mohan)告诉彭博社,使用 YouTube 视频来训练人工智能文本转视频生成器将“明显违反”该平台的服务条款。此番言论是针对 OpenAI 可能使用 YouTube 视频来训练 Sora 这一情况而言的。
莫汉澄清说,拥有 YouTube 的谷歌可能与某些创作者签订了合同,以便在谷歌 DeepMind 的 Gemini 的训练数据集中使用他们的视频。然而,莫汉表示,根据 YouTube 的服务条款,如果没有事先获得该公司的许可,从该平台获取视频是不被允许的。
在 TechCrunch 对 Viggle 首席执行官进行采访之后,Viggle 的一位发言人通过电子邮件收回了朱的声明,告知 TechCrunch 这位首席执行官“在提及 Viggle 是否使用 YouTube 数据进行训练时说得太早了。实际上,Hang/Viggle 无法分享其训练数据的细节。”
然而,我们指出朱已经公开这样做了,并要求就此事给出明确声明。Viggle 的发言人在回复中证实,这家人工智能初创公司使用 YouTube 视频进行训练:
这种合规方式似乎与莫汉 4 月份的言论相冲突,当时他称 YouTube 的视频语料库不是公共资源。我们联系了 YouTube 和谷歌的发言人,但尚未收到回复。
这家初创公司在将 YouTube 用作训练数据方面与其他公司一样处于灰色地带。据报道,许多人工智能模型开发者——包括 OpenAI、英伟达、苹果和 Anthropic——都使用 YouTube 视频的转录文本或片段进行训练。这在硅谷是一个不那么秘密的肮脏秘密:每个人可能都在这么做。真正罕见的是公开承认这件事。