"令人尴尬而且错误的": 谷歌承认AI生成图片失控

Chat中文版

本周，谷歌为又一次尴尬的人工智能失误道歉（或接近道歉），这是一个生成图像的模型，在历史背景上对图片进行多元化处理时出现荒谬的失误。尽管这个潜在问题是可以理解的，谷歌却责怪这个模型“变得”过于敏感。但这个模型不是自己制作的，伙计们。

这个AI系统是公司的旗舰会话AI平台Gemini，当被询问时，会调用一种Imagn 2模型版本来根据需求创建图像。

然而最近，人们发现让它生成某些历史情况或人物的图像时，结果是荒谬可笑的。比如，我们知道开国元勋是白人奴隶所有者，但被渲染成一群多元文化群体，包括有色人种。

评论者很快就拿这个令人尴尬且容易被复制的问题开涮，在线上。它也不出所料地被卷入了关于多样性、公平性和包容性的持续争论中（目前正处于声誉的低点），并被评论家们视为“觉醒心灵病毒”进一步渗透已经自由化的科技行业的证据。

Chat中文版

一些引起关注的公民呼喊着，这是DEI走火入魔了！这就是拜登的美国！谷歌是一个“意识形态的回音室”，是左派的马前卒！（左派必须得说也对这种奇怪现象感到恼火。）

但是任何熟悉这项技术的人都会告诉你，正如谷歌在其今天发布的一篇道歉性质的帖子中解释的那样，这个问题是出于对训练数据中系统性偏见的一个相当合理的解决办法。

假如你想要使用Gemini来创建一场营销活动，然后你让它生成10张“一个人在公园遛狗”的图片。因为你没有指定人的类型、狗的种类或者公园的样子，那就是随机的选择 — 生成模型会输出它最熟悉的内容。而在许多情况下，那并不是现实的产物，而是训练数据的产物，其中可能包含各种偏见。

这个模型所摄入的成千上万张相关图像中，最常见的人群、狗和公园是什么样的？事实是，在许多图像集合（存货图像、免版权摄影等）中，白种人的表现超过比例，因此如果你不进行特定说明，这个模型在许多情况下会默认为白种人。

这只是训练数据的一个副产品，但正如谷歌指出的，“因为我们的用户来自世界各地，我们希望能够为每个人提供良好的结果。如果你搜索足球运动员的图片，或者遛狗的人，你可能希望看到各种类型的人物。你可能不只想看到同一类族裔（或任何其他特征）的人的图片。”

Chat中文版

在郊区公园里拍一张白人带着一只金毛猎犬散步的照片没什么问题。但是如果你要求10张照片，它们全都是白人带着金毛猎犬在郊区公园散步？而且你住在摩洛哥，那里的人、狗和公园都长得不一样？那就不是一个理想的结果。如果没有人指定特征，模型应选择多样性，而不是同质性，尽管其训练数据可能使它产生偏见。

这是生成媒体领域普遍存在的问题。目前还没有简单的解决方案。但对于一些特别普遍、敏感或两者兼备的情况，像谷歌、OpenAI、Anthropic等公司会在模型中隐含额外的指导说明。

我无法强调这种隐性指导有多常见。整个LLM生态系统都建立在隐性指示上 - 有时被称为系统提示，比如在每次对话之前给模型诸如“言简意赅”，“不要说脏话”等指导。当你要求讲笑话时，你不会得到种族主义笑话 - 因为尽管模型已经吸收了成千上万个笑话，它也被训练过，就像我们大多数人一样，不会说那些笑话。这不是一个秘密议程（尽管它可能需要更多透明度），这是基础设施。

谷歌的模型出错的地方在于它没有考虑历史背景重要的情况下的隐含指令。因此，虽然像“一个在公园散步的人”这样的提示通过默默添加“这个人是随机性别和种族”等内容得到改进，但“美国开国元勋签署宪法”显然不适合同样的做法。

正如谷歌高级副总裁普拉巴卡·拉加万所说：

我知道有时说“对不起”是多么困难，所以我原谅拉加万只是差了一点。更重要的是其中有一些有趣的语言：“模型变得比我们预期的更为谨慎了。”

现在，一个模型如何会“成为”什么？这只是一种软件。有人——成千上万的谷歌工程师——建造了它，测试了它，不断迭代。有人编写了隐含的指令，改善了某些答案，也导致了其他的滑稽失败。当这个模型失败时，如果有人可以检查完整的提示，他们很可能会发现谷歌团队做错了哪些事情。

谷歌责怪该模型“变成”了它本来“意图”之外的东西。但是他们设计了这个模型！这有点像他们打破了玻璃，却不是说“我们把它掉了”，而是说“它掉了”。（我曾经这样做过。）

这些模型犯错误是不可避免的。它们会出现错觉，反映出偏见，行为也会出乎意料。但这些错误的责任不应归咎于模型，而应归咎于制造它们的人。今天是谷歌，明天可能是OpenAI。再过几天，也许会是X.AI。

这些公司对说服你认为AI正在犯错很感兴趣。不要被他们忽悠。

推荐阅读

Mulale Nkonde的非营利组织正在努力让人工智能更少地带有偏见

TechCrunch推出了一系列关于在人工智能革命中做出重大贡献的杰出女性的专访。

2024-02-231276

亚美尼亚的10web将人工智能网站构建引入WordPress

生成式人工智能在许多领域，包括网站建设，已经取得了令人印象深刻的成就。现在有许多工具可以通过简单描述他们想要的内容来生成网页设计，包括像Wix这样的知名公司和像Relume这样的初创企业。总部位于的公司10web已经开始…

2024-02-232706

Reddit表示迄今为止已经通过授权数据赚取了2.03亿美元

Reddit朝着股市上市的前进过程中，与AI供应商（如OpenAI）的关系比人们预期的要重要得多。在今天提交给美国证券交易委员会的IPO招股书中，Reddit反复强调了它认为自己将获得多大收益，以及已经有多少获取了...

2024-02-231080

稳定扩散3已经到来，巩固了在AI图像方面对索拉和双子的早期领先优势

稳定人工智能宣布推出稳定扩散3，这是该公司最新和最强大的图像生成人工智能模型。尽管详细信息有限，但显然这是为了抵制最近由OpenAI和谷歌宣布的竞争对手所带来的炒作。我们很快将对所有这些进行更详细的技术分析，但现在您应该……

2024-02-221962

Chrome将推出一款由Gemini技术驱动的内置人工智能写作工具

谷歌浏览器今天推出了新的人工智能写作生成器。从根本上说，这款由Gemini驱动的工具本质上就是Gmail现有的“帮我写”功能，但扩展到整个网络，并由谷歌最新的Gemini人工智能模型驱动。该公司在一月份首次宣布了这一新工具，目前仍在…

2024-02-22779