谷歌推出具有文本和标志生成功能的Imagen 2
谷歌将使其AI模型Imagen的第二代更广泛可用,该模型可以根据文本提示创建和编辑图像。至少对于已获准访问权的使用Vertex AI的谷歌云客户来说,这是可能的。
但该公司并未透露用于训练新模型的数据,也未提供给无意中为数据集作出贡献的内容创作者选择退出或申请补偿的方式。
谷歌推出了名为Imagen 2的增强版模型。这个模型在5月份的谷歌开发者大会上悄悄推出。它是利用谷歌旗下AI实验室DeepMind的技术研发而成。谷歌宣称Imagen 2在图像质量方面有“显著”提高(然而这个公司不可思议地在今天早上之前拒绝共享图像样本),并引入了新的功能,包括渲染文本和商标的能力。
“如果您想创建带有文本叠加的图像,例如广告,您可以这样做,”谷歌云首席执行官托马斯·库里安(Thomas Kurian)在周二的新闻发布会上表示。
文字和标志生成使Imagen与其他领先的图像生成模型保持一致,例如OpenAI的DALL-E 3和亚马逊最近推出的Titan图像生成器。然而,在两个可能的差异点上,Imagen 2可以在多种语言中渲染文字,包括中文、印地语、日文、韩文、葡萄牙语、英语和西班牙语,并能在现有的图像上叠加标志。
“Imagen 2可以生成……徽标、字母标志和抽象的标志……[并且]能够将这些标志叠加在产品、服装、名片和其他表面上”,Google生成媒体产品负责人Vishy Tirumalasetty在今天的公告之前向TechCrunch提供的博客文章中解释道。
由于“新颖的培训和建模技术”的帮助,Imagen 2还能够理解更加详细的、长篇的提示,并能够对图像中的元素提供“详细的回答”。Google表示,这些技术还提高了Imagen 2的多语言理解能力,使模型能够将一个语言的提示(例如一个标志)翻译成另一种语言的输出。
Imagen 2利用DeepMind开发的SynthID技术,在其创建的图像上应用了不可见的水印。当然,要检测这些水印,需要使用谷歌提供的工具,这些工具不向第三方开放。但是随着政策制定者对网络上不断增长的基于人工智能生成的虚假信息表示担忧,这或许可以减轻一些担忧。
谷歌没有公开揭示用于训练Imagen 2的数据,这一点令人失望,但并不完全令人意外。对于像谷歌这样的GenAI供应商是否可以在公开可获取的甚至受版权保护的数据上进行模型训练,然后将该模型商业化,这是一个开放的法律问题。
相关的诉讼案件正在法庭上进行,供应商们辩称他们受到公平使用原则的保护。但是在尘埃落定之前还需要一段时间。
与此同时,谷歌选择保持沉默,对这个问题保持谨慎态度,这与谷歌在第一代Imagen中采取的策略相反,当时谷歌公开透露使用了一种公开的LAION数据集版本来训练这个模型。众所周知,LAION数据集中包含一些有问题的内容,包括但不限于私人医学影像、受版权保护的艺术作品和经过润色的淫秽名人照片,这显然对谷歌来说并不是最好的形象展示。
一些开发以人工智能为驱动的图像生成器的公司,如Stability AI和几个月前的OpenAI,允许创作者选择不参与训练数据集。另外一些公司,比如Adobe和Getty Images,正在建立为创作者提供补偿的计划,尽管不一定报酬高或透明。
谷歌(以及公平地说,包括亚马逊在内的一些竞争对手)都没有提供类似的选择退出机制或创作者补偿。看上去这个情况在短时间内不会改变。
相反,谷歌提供了一项赔偿政策,以保护符合条件的 Vertex AI 客户免受与谷歌对训练数据和 Imagen 2 输出的使用相关的版权索赔。
反刍现象,或者说生成模型获得训练样例的镜像副本时,是企业客户和开发者们合理关注的问题。一项学术研究显示,第一代Imagen并不对这一现象免疫,在特定方式的引导下,会生成可以辨认出真实人物的照片、艺术家的受版权保护的作品等。
毫不奇怪,在Acrolinx对《财富》500强公司进行的最新一项调查中,近三分之一的公司表示知识产权是他们对生成型人工智能使用的最大担忧。另一项调查发现,九成的开发者在决定是否使用生成型人工智能时会“严重考虑”知识产权保护的问题。
这是一个谷歌希望通过其新扩展的政策解决的问题。(谷歌以前的补偿条款并不涵盖Imagen的输出内容。)至于创作者的担忧,唉...这一次他们就没那么幸运了。