谷歌表示已修复了 Gemini 的人物生成功能。

AI7号2024-08-28936

Chat中文镜像

早在 2 月份,谷歌暂停了其人工智能聊天机器人 Gemini 生成人物图像的能力,此前用户抱怨存在历史不准确的问题。例如,当被要求描绘“一个罗马军团”时,Gemini 会展示出一个不合时宜的、种族多样的士兵群体,而在描绘“祖鲁战士”时,会刻板地将其表现为黑人形象。

谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)道歉了,谷歌人工智能研究部门 DeepMind 的联合创始人德米斯·哈萨比斯(Demis Hassabis)表示,修复措施应该会“很快”到来——在接下来的几周内。但最终花费的时间远远超出了这个期限(尽管一些谷歌员工每周工作 120 个小时!)。但在未来几天,Gemini 将再次能够生成展示人物的图片。

嗯……算是吧。

只有特定用户——具体来说,是那些注册了谷歌付费 Gemini 计划(Gemini Advanced、Business 或 Enterprise)之一的用户——将作为早期访问、仅限英语的测试的一部分,重新获得 Gemini 的人物生成功能。谷歌未透露该测试何时会扩展到免费的 Gemini 层级和其他语言。

谷歌的一位发言人告诉 TechCrunch:“Gemini Advanced 让我们的用户能够优先使用我们的最新功能。”“这有助于我们收集宝贵的反馈,同时首先向我们的高级订阅用户提供备受期待的功能。”

那么,谷歌为人物生成做了哪些修复?据该公司称,Imagen 3 是集成到 Gemini 中的最新图像生成模型,包含了缓解措施,以使 Gemini 生成的人物图像更加“公平”。例如,根据与 TechCrunch 分享的一份技术文件,Imagen 3 是基于人工智能生成的描述进行训练的,这些描述旨在“提高[其]训练数据中与图像相关概念的多样性和丰富性”。谷歌称,该模型的训练数据经过了“安全性”筛选,并“在考虑公平问题的情况下进行了审查……”

我们要求了解更多关于 Imagen 3 训练数据的细节,但发言人只表示该模型是在“一个包含图像、文本和相关注释的大型数据集”上进行训练的。

该发言人继续说道:“通过广泛的内部和外部红队测试,并与独立专家合作以确保持续改进,我们已经大大降低了出现不良反应的可能性。我们的重点一直是在重新启用之前,对人员生成进行严格测试。”

图像 3 和宝石

有一个稍好一点的消息,所有 Gemini 用户在本周内都将获得 Imagen 3——但未订阅 Gemini Advanced 的用户无法使用人物生成功能。

谷歌表示,与前身 Imagen 2 相比,Imagen 3 能够更准确地理解转化为图像的文本提示,其生成的内容更具“创造性和细节”。此外,谷歌称,该模型产生的伪影和错误更少,是目前渲染文本效果最好的 Imagen 模型。

为了减轻对可能制造深度伪造内容的担忧,Imagen 3 将使用 SynthID,这是 DeepMind 开发的一种方法,用于向媒体添加不可见的加密水印——这与谷歌的 Pixel Studio 的输出不同。

除了 Imagen 3 之外,谷歌正在推出 Gems——不过目前仅面向 Gemini 高级版、商业版和企业版用户。与 OpenAI 的 GPT 类似,Gems 是 Gemini 的定制版本,可以在特定主题上充当“专家”。要创建一个,为 Gem 编写指令,给它起个名字,然后就可以开始使用了。

以下是谷歌在一篇博客文章中对它们的描述方式:

有了 Gems,您可以组建一个专家团队,帮助您思考具有挑战性的项目,为即将举行的活动集思广益,或者为社交媒体帖子撰写完美的标题。您的 Gem 还可以记住一系列详细的指令,帮助您节省繁琐、重复或困难任务上的时间。