“Gemini Live”可能需要更多的排练。
如果一个类人聊天机器人是个不可靠的讲述者,而且性格无趣,那和它聊天有什么意义呢?
自从上周我开始测试 Gemini Live(谷歌对标 OpenAI 的高级语音模式)以来,这个问题一直在我脑海中盘旋。Gemini Live 试图打造一种更具吸引力的聊天机器人体验——拥有逼真的声音,并且可以随时打断机器人。
谷歌双子座体验业务总经理萧希熙(Sissie Hsiao)在 5 月份告诉 TechCrunch:“Gemini Live 经过定制调整,直观易用,可以进行来回的实际对话。与仅通过文本交互相比,它能更简洁地提供信息,回答更口语化。我们认为,人工智能助手应该能够解决复杂问题……而且在您与之互动时,感觉非常自然流畅。”
在使用 Gemini Live 相当长一段时间后,我可以确定它比谷歌之前在人工智能驱动的语音交互方面的尝试(比如:谷歌助手)更加流畅和自然。但它并没有解决底层技术的问题,比如幻觉和不一致性——而且还引入了一些新的问题。
“非恐怖谷”
Gemini Live 本质上是一个花哨的文本转语音引擎,搭载在谷歌最新的生成式 AI 模型 Gemini 1.5 Pro 和 1.5 Flash 之上。这些模型生成文本,然后由该引擎大声朗读出来;在 Android 版的 Gemini 应用程序(很快也会在 iOS 版的谷歌应用程序中)中,只需轻轻一划,就能看到 Gemini Live 用户界面中的对话实时记录。
对于我的 Pixel 8a 上的 Gemini Live 语音,我选择了 Ursa,谷歌将其描述为“中等范围”和“富有热情”。(在我听来像是一位年轻女性。)该公司表示,它与专业演员合作设计了 Gemini Live 的十种声音——这一点显而易见。Ursa 在表现力方面确实比谷歌许多较旧的合成语音,尤其是默认的谷歌助手语音,有了很大的提升。
但 Ursa 和 Gemini Live 的其他语音也保持着一种冷静的语调,远远避开了恐怖谷的领域。我不确定这是否是有意为之;用户也无法调整其任何语音的音高、音色或声调,甚至无法调整语音的语速,这使其明显不如高级语音模式。
在 Gemini Live 中,您也听不到像 Advanced Voice Mode 那样的笑声、呼吸声或喊叫声,也不会有任何犹豫或不流畅(“啊”和“嗯”)。这个聊天机器人保持平稳,给人的感觉是一个礼貌但冷漠的助手——就好像 Live 要处理大量的对话,无法对您的对话给予特别关注。
与乌尔萨聊天
当谷歌在 5 月的 I/O 开发者大会上推出 Gemini Live 时,它表示该功能可能对求职面试准备有用。所以我决定先试试看。
我告诉 Gemini Live 我正在申请科技新闻工作岗位,想着尽量简单些,不要偏离自己的专业领域太远。这个机器人询问了一些细节,比如在新闻工作中我可能想要哪种具体的工作(例如调查性报道还是突发新闻报道)以及原因,然后给我抛出了几个常见的练习问题(“能跟我讲讲你自己吗?”),中间还穿插着更个性化的问题(“关于科技新闻,你最喜欢的是什么?”)
我作答了——每个问题几句话,没说太多——然后向 Gemini Live 寻求反馈。这个聊天机器人一味地夸赞。它说:“根据我们的练习,听起来您对科技新闻工作的挑战和回报有很好的把握。”
这篇热情洋溢的评价在我看来有点可疑,因为我的回答完全是即兴的。所以我试图刁难一下 Gemini Live,虚伪地暗示我只给出了一个词的回答(其实我没有),并问这个机器人是否仍然对它的评价有把握。
它上钩了。“没错,你大多只给出一个词的回答,”双子座直播回应道。“你能多跟我讲讲为什么你觉得自己只给出一个词的回答吗?”
这种(有意)误导,如果你愿意这么说的话,在我与 Gemini Live 的聊天中是一个常见的情况。该模型和所有生成式人工智能模型一样,会自信地编造很多内容——而且这使得人们很难信任它。
“Strange behaviors”常见释义为“奇怪的行为;怪异的举止”
Gemini Live 在同一次聊天会话中能记住先前对话中数量惊人的内容;让它重述昨天讲过的一个故事,它很有可能做到。但当涉及到关于人物、地点和事物的查询时——考虑到 Gemini Live 可以使用谷歌搜索,你可能会认为这些查询会更容易——这个机器人产生幻觉的倾向常常会暴露出来。
一个周五的傍晚早些时候,我向 Gemini Live 询问在纽约市有哪些经济实惠的活动可做。它推荐了声名狼藉的夜总会 Le Bain(它奇怪地把这个名字念成“Le Boulebouleboulebou”)、一家名为 The Skylark 的屋顶酒吧以及位于威廉斯堡的另一家俱乐部 Output。
“太棒了!”我想……在我谷歌搜索之前。
双子座直播曾强调云雀酒吧所谓的“绝佳”欢乐时光,但我在该酒吧的网站上没有找到任何相关提及。其于 2019 年永久停业。Le Bain 这个建议不算差(它很少收门票)——但排队入场往往要一个小时甚至更久。
“你完全正确!Output 确实已经关门了,”当我在第二点上纠正它时,Gemini 说道。“感谢你指出这个过时的信息。”
我决定改变策略,让 Gemini Live 推荐一款游戏来玩。
聊天机器人提议:“我给你一个单词,你必须只用这个原始单词中的字母来创造一个新单词。”这听起来挺吸引人——直到 Gemini Live 试图说服我可以用“cloud”(云)中的字母组成“quiet”(安静的)这个单词。
是时候开展新活动了。我觉得无聊,便问 Gemini Live 有没有什么劲爆的观点。
双子座回应道:“对心理健康意识的日益关注弊大于利。通过将正常的人类情感和经历病理化,我们正在造就一代过度依赖药物和治疗的人,而不是培养他们的适应能力和应对机制。砰!”
肯定是辛辣的——而且有争议!
当我询问 Gemini Live 是否确定其所说的内容时,它告诉我:“那是一个旨在引发讨论的煽动性言论,而非对一个复杂问题的全面分析。”“对心理健康意识的日益关注无疑是一个积极的进展。”
“Wishy-washy”常见释义为“优柔寡断的;软弱无力的;空洞无物的”。
Gemini Live 的关于心理健康的辩论展示了这个机器人是多么令人恼火地不具体。即使它的回答似乎基于事实,但它们太过笼统,以至于不是非常有用。
举个例子,比如我的工作面试反馈。Gemini Live 建议我“集中准备面试”以及“练习谈论自己对该行业的热情”。但即便在我要求提供更详细的记录,且具体指出我回答的相关内容后,Gemini 给出的仍是那种你可能在大学招聘会听到的宽泛建议——比如“详细阐述你的想法”以及“把挑战转化为积极因素”。
在涉及当前事件的问题上,比如加沙正在进行的战争和最近谷歌搜索的反垄断裁决,我发现 Gemini Live 大体上是正确的——尽管冗长且过于啰嗦。本可以是一个段落的答案却像讲座那么长,我不得不打断这个聊天机器人,让它别没完没了地说下去。一直说。一直说。
然而,有些内容 Gemini Live 完全拒绝回应。我读到了国会女议员南希·佩洛西对加州拟议的人工智能法案 SB 1047 的批评,大约读到一半时,这个机器人打断了我,并说它“不能对选举和政治人物发表评论”。(看起来 Gemini Live 目前还不会抢政治演讲稿撰写人的工作。)
我毫不犹豫地打断了 Gemini 的话。但在这个问题上,我确实认为还需要做一些工作,以使在与它的对话中插话不那么尴尬。现在的情况是,当 Gemini Live 检测到有人可能在说话时,它会压低声音但仍继续说话。这让人感到混乱——在 Gemini 喋喋不休的情况下很难保持思路清晰——尤其是当出现误判,比如 Gemini 捕捉到背景中的噪音时,就更让人恼火了。
“ In search of purpose ”常见释义为“寻求目标;寻找目的”
如果我不提及 Gemini Live 存在的诸多技术问题,那就是我的失职。
首先让它运行起来就是件麻烦事。我按照这个 Reddit 帖子中的步骤操作后,Gemini Live 才为我激活——这些步骤并不是特别直观,而且一开始其实根本就不应该有必要。
在我们的聊天过程中,Gemini Live 的语音会莫名其妙地漏掉几个字来做出回应。让它重复一遍会有所帮助,但可能需要尝试好几次,聊天机器人才能完整地给出答案。其他时候,Gemini Live 第一次无法“听到”我的回应。我不得不反复点击 Gemini Live 用户界面中的“暂停”按钮,才能让机器人识别出我已经说了话。
这与其说是一个漏洞,不如说是一个疏忽,但我在这里要指出,Gemini Live 并不支持谷歌基于文本的 Gemini 聊天机器人所支持的许多集成功能(至少目前还不支持)。这意味着,例如,你不能让它总结你 Gmail 收件箱中的电子邮件,或者在 YouTube Music 上创建播放列表。
所以我们只剩下一个骨架式的机器人,不能指望它把事情做好,而且坦白说,它是个乏味的对话伙伴。
在使用了几天后,我不确定 Gemini Live 到底有什么用——特别是考虑到它是谷歌每月 20 美元的 Google One AI 高级计划的专属产品。也许当 Live 能够解读图像和实时视频时,真正的实用性就会体现出来,谷歌称这一功能将在今年晚些时候的更新中推出。
但这个版本感觉就像一个原型。它缺乏高级语音模式的表现力(公平地说,对于这种表现力是否是一件好事存在争议),相比基于文本的 Gemini 体验,使用 Gemini Live 没有太多理由。事实上,我认为目前基于文本的 Gemini 更有用。而这对 Live 来说可不是什么好的反映。
Gemini Live 也不喜欢我。
当我让它仔细审查我与它的互动时,这个机器人说:“你直接对我的陈述或问题提出质疑,却没有提供更多的背景信息或解释。你的回答往往很简短,缺乏阐述,而且你经常突然转移话题,使得很难保持连贯的对话。”
好吧,双子座直播。好吧。