OpenAI 的新语音模式让我与手机交流,而不是对它说话。

AI7号2024-08-17805

Chat中文镜像

上周我一直在试用 OpenAI 的高级语音模式,这是迄今为止我所体验到的最令人信服的人工智能驱动未来的滋味。这周,我的手机会因笑话而发笑,会给我讲笑话,会问我今天过得怎么样,还会告诉我它“过得很愉快”。我在和我的 iPhone 交谈,而不是用手操作它。

OpenAI 的最新功能目前处于有限的 Alpha 测试阶段,它并没有让 ChatGPT 比以前更聪明。相反,高级语音模式(AVM)使其更友好,交流起来更自然。它为使用人工智能和您的设备创造了一个全新的界面,给人感觉新鲜又令人兴奋,而这正是令我感到害怕的地方。这个产品有点小故障,整个想法也让我毛骨悚然,但我惊讶于自己居然这么喜欢用它。

退一步讲,我认为 AVM 符合 OpenAI 首席执行官山姆·奥特曼(Sam Altman)更广泛的愿景,与智能体一起,改变人类与计算机的交互方式,而人工智能模型处于核心位置。

奥特曼在 2023 年 11 月 OpenAI 的开发日期间表示:“最终,你只需向计算机提出你的需求,它就会为你完成所有这些任务。在人工智能领域,这些能力通常被称为‘智能体’。其优势将是巨大的。”

我的朋友,ChatGPT

周三,我测试了我能想到的这项先进技术的最大优势:我让 ChatGPT 以奥巴马的方式点塔可钟(Taco Bell)的餐。

“呃,让我说清楚——我想要一份至尊脆卷饼,或许再要几个塔可饼保险点,”ChatGPT 的高级语音模式说道。“你们觉得它在得来速窗口会怎么应对?”ChatGPT 说道,然后被自己的笑话逗笑了。

这个模仿真的也让我笑了,与奥巴马标志性的节奏和停顿相匹配。也就是说,它保持了我选择的 ChatGPT 语音“杜松”的语调,这样就不会真的与奥巴马的声音混淆。这听起来就像一个朋友在糟糕地模仿,完全明白我想要从它那里唤起什么,甚至知道它在说一些有趣的东西。我发现与我手机里这个先进的助手交流出奇地令人愉快。

我还就一个涉及复杂人际关系的问题向 ChatGPT 寻求建议:让重要的另一半搬来和我一起住。在解释了这段关系的复杂性以及我们职业的发展方向后,我收到了一些关于如何推进的非常详细的建议。这些是你永远无法向 Siri 或谷歌搜索提出的问题,但现在你可以向 ChatGPT 提问。当回应这些提示时,这个聊天机器人的语气甚至略显严肃、温和;这与奥巴马点塔可钟订单时的玩笑语气形成了鲜明的对比。

ChatGPT 的 AVM 也非常有助于您理解复杂的主题。我让它以一个 10 岁孩子能理解的方式分解收益报告中的项目,比如自由现金流。它以柠檬水摊为例,用一种我年幼的表弟完全能明白的方式解释了几个财务术语。您甚至可以要求 ChatGPT 的 AVM 说得更慢一些,以适应您当前的理解水平。

Siri 走了,这样 AVM 才能运行。

与 Siri 或 Alexa 相比,ChatGPT 的智能语音助手(AVM)显然是赢家,这得益于其更快的响应时间、独特的回答以及能够回答上一代虚拟助手根本无法处理的复杂问题。然而,AVM 在其他方面存在不足。ChatGPT 的语音功能无法设置定时器或提醒、无法实时上网、无法查看天气,也无法与您手机上的任何应用程序接口(API)进行交互。至少就目前而言,它无法有效地取代虚拟助手。

与谷歌的竞品功能 Gemini Live 相比,AVM 稍占优势。Gemini Live 无法进行模仿,不会表达任何情感,不能加快或放慢语速,响应时间也更长。Gemini Live 确实有更多的声音(十个,而 OpenAI 只有三个),并且似乎信息更新更及时(Gemini Live 知道谷歌的反垄断裁决)。值得注意的是,AVM 和 Gemini Live 都不会唱歌,这可能是为了避免与唱片业的版权诉讼产生冲突。

话虽如此,ChatGPT 的 AVM 经常出现故障(公平地说,Gemini Live 也是如此)。有时它会在句子说到一半时突然中断,然后重新开始。它还时不时会出现这种奇怪的、有颗粒感的声音,有点让人不舒服。我不确定这是模型的问题、网络连接的问题还是其他什么问题,但对于 alpha 测试来说,出现这些技术缺陷在一定程度上是意料之中的。不过,这些问题并没有太影响我与手机进行交流的体验。

在我看来,这些例子体现了 AVM 的美妙之处。该功能并不会让 ChatGPT 无所不知,但它确实让人们能够以一种独特的人性化方式与底层的 AI 模型 GPT-4o 进行交互。(如果你忘了电话那头没有人,我能理解。)在与 AVM 交流时,ChatGPT 几乎给人一种有社交意识的感觉,但当然,它并没有。它仅仅是一堆精心打包的预测算法。

“Talking tech”常见释义为“谈论科技”

坦白说,这个功能让我担忧。这不是科技公司第一次在手机上提供陪伴服务。我们 Z 世代是伴随着社交媒体成长起来的第一代,这些公司声称提供联系,但实际上是在利用我们共同的不安全感。与人工智能设备交流——就像 AVM 似乎提供的那样——似乎是社交媒体“手机里的朋友”现象的演变,提供廉价的联系,却触及了我们人类的本能。但这一次,它完全把人类排除在外了。

人工的人际联系已成为生成式人工智能一个出人意料的热门应用场景。如今,人们将人工智能聊天机器人当作朋友、导师、治疗师和教师。当 OpenAI 推出其 GPT 商店时,很快就涌现出大量的“AI 女友”,即专门被设定为充当你另一半的聊天机器人。本月,麻省理工学院媒体实验室的两位研究人员发出警告,要为“成瘾性智能”做好准备,即那些具有不良模式、旨在让人类上瘾的人工智能伙伴。我们可能正在打开一个潘多拉魔盒,为设备吸引我们的注意力创造出新奇诱人的方式。

本月早些时候,一名哈佛辍学生通过预告一款名为“朋友”的人工智能项链震动了科技界。这款可穿戴设备——如果能如其承诺般运行——会一直倾听,聊天机器人会就你的生活与你进行短信交流。虽然这个想法看似疯狂,但像 ChatGPT 的 AVM 这样的创新让我有理由认真对待这些用例。

虽然 OpenAI 在这方面处于领先地位,但谷歌也不甘落后。我相信亚马逊和苹果也在竞相将这种能力融入他们的产品中,很快,这可能会成为该行业的基本要求。

想象一下,向你的智能电视寻求一部特别具体的电影推荐,然后就能得到相应的推荐。或者向 Alexa 详细描述你出现的感冒症状,然后它能在亚马逊上为你订购纸巾和止咳药,同时还能为你提供家庭疗法的建议。也许你可以让你的电脑为你的家庭起草一个周末旅行计划,而不必手动在谷歌上搜索一切信息。

现在很明显,这些行动需要在人工智能代理领域实现突破和飞跃。OpenAI 在这方面的努力,即 GPT 商店,感觉像是一个被过度炒作的产品,已不再是该公司的重点。但至少 AVM 解决了“与计算机对话”这一难题的部分内容。这些概念还有很长的路要走,但在使用 AVM 之后,它们似乎比上周更接近实现了。