OpenAI的Sora视频生成模型也可以渲染视频游戏
OpenAI的全新、也是首个视频生成模型Sora展示了一些真正令人印象深刻的电影制作技巧。但根据今晚发表的一篇技术论文来看,这个模型的能力实际上比OpenAI最初所展示的要更强大。
标题为《视频生成模型作为世界模拟器》的论文,由一群OpenAI研究人员合著,揭示了Sora架构的关键方面,例如揭示了Sora可以生成任意分辨率和长宽比的视频(最高1080p)。根据论文,Sora能够执行各种图像和视频编辑任务,包括创建循环视频,将视频向前或向后延长时间,以及在现有视频中更改背景。
但对于笔者来说,最引人入胜的是Sora能够"模拟数字世界",正如OpenAI的合著者所说的那样。在一个实验中,OpenAI让Sora在Minecraft游戏中自由地渲染世界-包括物理学等动态-同时控制玩家。
那么Sora是如何做到这一点的呢?根据Nvidia研究员Jim Fan(通过Quartz)的观察,Sora更像是一个“数据驱动的物理引擎”而不仅仅是一个创造性工具。它不仅仅生成一张照片或视频,而是确定环境中每个物体的物理特性,并根据这些计算渲染照片或视频(或交互式3D世界)。
合著者写道:“这些能力表明,继续扩展视频模型是开发出高能力的物理世界和数字世界的模拟器以及其中存在的物体、动物和人类的有希望的路径。”
现在,Sora在视频游戏领域仍存在常规的限制。该模型无法准确地模拟基本交互的物理效应,比如玻璃破碎。而且,即使对于可以模拟的交互,Sora也经常出现不一致的情况,例如渲染一个人吃汉堡却无法呈现咬痕。