OpenAI最新的模型Sora能够生成视频,而且效果还不错

AI7号2024-02-152952

Chat中文版

OpenAI紧随Runway等初创公司和Google、Meta等科技巨头的步伐,投身于视频生成领域。

今天,OpenAI发布了名为Sora的GenAI模型,该模型可通过文本生成视频。OpenAI声称,只需提供简要或详细的描述或静态图片,Sora就能生成具有多个角色、不同类型的动作和背景细节的类似电影的1080p场景。

Sora还能“扩展”现有的视频片段,尽力填补缺失的细节。

OpenAI在一篇博文中写道:“Sora对语言有深入的理解,能够准确解释提示并生成生动表达丰富情感的角色。该模型不仅理解用户在提示中要求的内容,而且还知道这些事物在现实世界中是如何存在的。”

现在,OpenAI的Sora演示页面上有很多夸大的言辞,上面的陈述就是一个例子。但与我们所见到的其他文字到视频技术相比,从该模型中挑选出来的样本看起来确实令人印象深刻。

首先,Sora可以生成各种风格的视频(例如逼真的、动画的、黑白的等等),时长可达一分钟,这比大多数文本转视频模型要长得多。而且这些视频在保持合理连贯性方面非常好,不会总是出现我所说的“人工智能怪异现象”,比如物体在物理上不可能的方向移动。

快来看看这个艺术画廊的导览,所有的作品都是由Sora生成的(忽略像素粗糙性——这是由于我视频到GIF的转换工具所引起的压缩)。

Chat中文版

或者这个花朵绽放的动画:

Chat中文版

我会说,Sora的一些涉及类人主题的视频——例如机器人站在城市背景中,或者一个人走在雪地小径上——有一种类似于电子游戏的质感,可能是因为背景中没有太多事情在发生。AI的怪异之处在于许多片段中的其他方面也会逐渐显现,比如汽车行驶在一个方向然后突然倒车,或者手臂融入到被子上。

Chat中文版

开放AI — 尽管它有诸多优点 — 承认模型并非完美。它写道:

“[Sora]在准确模拟复杂场景的物理过程上可能会遇到困难,可能无法理解特定的因果关系。例如,一个人可能咬了一口饼干,但之后饼干上可能没有咬痕。这个模型还可能混淆提示中的空间细节,例如,左右方向可能会弄混,并且在描述随时间进行的事件时可能会遇到困难,比如追踪特定的摄像机轨迹。”

OpenAI非常强调Sora是一个研究预览,对于用于训练模型的数据并未透露太多细节(除了大约10,000小时的“高质量”视频),也未将Sora普遍推广。其理由是为了防止滥用;OpenAI正确指出,不良行为者可能会以各种方式滥用像Sora这样的模型。

OpenAI表示正在与专家合作,对该模型进行漏洞研究,并建立工具来检测视频是否由Sora生成。该公司还表示,如果决定将该模型用于面向公众的产品,将确保生成的输出中包含原始数据信息。

“我们将与全球的决策者、教育工作者和艺术家进行交流,了解他们的关注点,并确定对这项新技术的积极应用案例,”OpenAI写道。“尽管进行了大量的研究和测试,但我们无法预测人们将如何以有益的方式使用我们的技术,也无法预测人们将如何滥用它。这就是为什么我们相信从实际使用中学习是创建和发布越来越安全的人工智能系统的关键组成部分。”

推荐阅读

开放人工智能(OpenAI)无权商标「GPT」

2024-02-15505
Chat中文版

这个德国非盈利组织正在构建一个任何人都可以使用的开放式语音助手

2024-02-151317
Chat中文版

CodeSignal的Tigran Sloyan谈论如何缩小人才缺口并减少招聘中的偏见

2024-02-152763
Chat中文版

Guardrails AI希望利用众包的方式解决GenAI模型的问题

2024-02-152810
Chat中文版

谷歌在巴黎的新人工智能中心表明谷歌对人工智能感到不安

2024-02-15438
Chat中文版