中国的创造性视频竞争升温
在周一,中国互联网巨头腾讯在GitHub上发布了其开源视频生成模型DynamiCrafter的新版本。腾讯以其电子游戏帝国和聊天应用微信而闻名,这是提醒人们中国一些最大的科技公司正在悄然加大力度进入文本和图像转视频领域。
与市场上其他生成视频工具一样,DynamiCrafter 使用扩散方法将字幕和静态图像转化为几秒钟的视频。在物理学上受到扩散现象的启发,机器学习中的扩散模型可以将简单的数据转化为更复杂和逼真的数据,就像粒子从高浓度区域移动到低浓度区域一样。
动力创作的第二代产品以640×1024的像素分辨率制作视频。这是在十月份首次发布的320×512视频的升级版本。动力创作团队发表的一篇学术论文指出,该技术不同于竞争对手的地方在于,它将图像动画技术应用范围扩大到“更通用的视觉内容”。
论文中表示:“关键思想是通过将图像纳入生成过程作为指导,利用文本到视频扩散模型的动态特征先验。”相比之下,“传统”技术“主要侧重于利用随机动力学(例如云和流体)或特定领域的动作(例如人体头发或身体动作)来使自然场景动画化。”
在下面的演示中,比较了DynamiCrafter、Stable Video Diffusion(于11月发布)和最近备受瞩目的Pika Labs。可以看出,腾讯模型的效果似乎比其他模型更加生动。不可避免地,在选择的样本中有利于DynamiCrafter,并且在我最初的几次尝试之后,没有一个模型给人以人工智能即将能够制作完整电影的印象。
尽管如此,随着生成文字和图像的繁荣,生成视频被寄予了很高的期望,被视为AI竞赛中的下一个焦点。因此,预计初创公司和科技巨头们都在该领域投入资源。中国也不例外。除了腾讯,抖音的母公司字节跳动、百度和阿里巴巴也分别发布了他们的视频扩散模型。
字节跳动的魔力视频和百度的UniVG都在GitHub上发布了演示,但似乎都还没有对公众开放。与腾讯一样,阿里巴巴也已将其视频生成模型VGen开源,这是中国科技公司越来越受欢迎的策略,希望能触达全球开发者社区。