Google发布了Imagen 2,一款视频剪辑生成器
谷歌在生成图像的人工智能方面并不是表现最好的。
二月份,人们发现内置在谷歌AI聊天机器人Gemini中的图像生成器会在有关人物的提示中随机注入性别和种族多样性,导致出现种族多样的纳粹图片,等一系列不准确且令人讨厌的错误。
谷歌停止了这个生成器,并发誓要改进它,最终重新发布。在我们等待其回归的时候,该公司正在推出一个增强版的图像生成工具“Imagen 2”,该工具将内置到其Vertex AI开发者平台中,尽管是一个更具明显企业化倾向的工具。谷歌在其年度Cloud Next大会上宣布了Imagen 2。
Imagen 2 — 实际上是一个系列的模型,于2023年5月在Google的I/O大会上预览后,在12月份推出 — 可以根据文字提示创建和编辑图像,就像OpenAI的DALL-E和Midjourney。对企业界人士感兴趣的是,Imagen 2可以以多种语言呈现文本、标志和标志,可选地叠加这些元素在现有的图像上,例如,叠加在名片、服装和产品上。
在首次以预览形式发布之后,Imagen 2的图像编辑现在在Vertex AI中普遍可用,同时还增加了两项新功能:修复和填充。修复和填充是其他流行的图像生成器(包括DALL-E)一直提供的功能,可用于删除图像中不需要的部分,添加新组件,并扩展图像的边界,以创建更广阔的视野。
但是Imagen 2 升级的真正亮点是谷歌称之为“文字转活动图像”。
Imagen 2现在可以根据文本提示创建短暂的四秒视频,类似于像Runway、Pika和Irreverent Labs这样由人工智能驱动的剪辑生成工具。与Imagen 2公司的重点一致,谷歌将现场图像作为营销人员和创意人士的工具,比如作为广告的GIF生成器,展示自然、食物和动物等主题——这些是Imagen 2进行了细致调整的素材。
谷歌表示,直播图像可以捕捉“各种摄像机角度和运动”,同时“支持整个序列的一致性”。但目前分辨率较低:360像素乘以640像素。谷歌承诺未来这将得到提高。
为了缓解(或至少尝试缓解)人们对深度伪造的担忧,谷歌表示Imagin 2 将采用由谷歌DeepMind开发的SynthID方法,对实时图像应用不可见的加密水印。当然,要检测这些水印 —— 谷歌声称这些水印对编辑包括压缩、滤镜和色调调整都具有抵抗力 —— 需要使用谷歌提供的工具,第三方无法获得。
毫无疑问,谷歌急切地想要避免再次出现生成式媒体的争议,强调直播图像生成将被“过滤以确保安全”。一位发言人通过电子邮件告诉科技媒体TechCrunch:“Vertex AI中的Imagen 2模型并未遇到Gemini应用程序的同样问题。我们将继续进行广泛测试并与客户进行交流。”
但大方地假设有一瞬间谷歌的水印技术、偏见减轻措施和过滤器真的像它所声称的那样有效,实时图像工具甚至与已经存在的视频生成工具竞争吗?
并不是。
Runway可以生成分辨率更高的18秒视频片段。 Stability AI的视频剪辑工具“稳定视频扩散”在帧率方面提供了更高的定制性。而OpenAI的SORA——尽管目前尚未商业化——似乎有望以其能够实现的逼真程度击败竞争对手。
直播图像的真正技术优势是什么?我不太确定。我觉得我并没有太苛刻。
毕竟,Google是背后支持着令人印象深刻的视频生成技术,例如Imagen Video和Phenaki。Phenaki是Google在文本到视频领域的一个更有趣的实验,将长、详细的提示转化为两分钟以上的“电影”——但这些片段是低分辨率、低帧率且只有些许连贯性。
鉴于最近的报道表明,生成式人工智能革命让谷歌CEO桑达尔·皮查感到措手不及,公司仍在努力赶上竞争对手的步伐,所以像实时图像这样的产品似乎并不令人惊讶。但仍然令人失望。我不禁觉得,在谷歌的秘密研究室中或许隐藏着一个更令人印象深刻的产品。
像Imagen这样的模型通常在公共网站和数据集中获取的大量示例上进行训练。许多生成式人工智能供应商将训练数据视为竞争优势,因此会保持这些数据及相关信息严加保密。但训练数据的细节也可能成为知识产权相关诉讼的潜在来源,这也是不愿透露太多信息的另一个因素。
我问道,就像我在关于生成式人工智能模型的公告上经常做的那样,关于用来训练更新的Imagen 2的数据是什么,以及那些可能会被纳入模型训练过程的创作者是否能在未来某个时候选择退出。
谷歌告诉我,它的模型主要是在公开网络数据上进行训练的,这些数据来自“博客文章、媒体文本和公开对话论坛”。到底是哪些博客、文本和论坛?谁也说不准。
一位发言人指出谷歌的网络发布者控制可以让站长阻止公司从其网站上抓取数据,包括照片和艺术作品。但谷歌并未承诺发布选择退出工具,或者补偿创作者他们无意中提供的贡献,而许多竞争对手,包括OpenAI、Stability AI和Adobe,已经采取了这一步骤。
另一个值得一提的重点是:谷歌的生成AI保障政策不包括文字到实时图像,该政策保护Vertex AI客户免受与谷歌使用训练数据和生成AI模型输出相关的版权索赔。这是因为文字到实时图像技术上还处于预览阶段;该政策仅涵盖正式推出的生成AI产品。
回溯,或者说生成模型产生出一个它在训练中学到的示例(比如图片)的镜像副本,的确是企业客户关注的问题。无论是非正式的研究还是学术研究都表明,第一代Imagen,也就是Imagen 2的前身,也无法避免这种情况,在特定方式的提示下产生出可识别的人物照片、艺术家的受版权保护作品等。
除非发生争议、技术问题或其他重大意外挫折,文字到实时图片将在未来某个时间进入GA。但就目前存在的实时图片而言,谷歌基本上在说:使用需谨慎。