兔子基于网络的“大型动作模型”代理最早将于本周在 r1 上线。
兔子 r1 是 2024 年初必备的小玩意,但当公司夸大的承诺未能兑现时,它很快就失宠了。首席执行官杰西·吕承认“第一天,我们的期望过高”,但也表示本月即将为设备推送的更新最终将在网络上释放备受吹捧的大型动作模型。
尽管怀疑者可能(有理由)认为这太少、太迟,或者是目标的又一次转变,但 Rabbit 打造一个适用于网络和移动应用程序的不受平台限制的代理的愿望仍然具有根本的——尽管在很大程度上仍是理论上的——价值。
在接受 TechCrunch 采访时,吕表示,过去的六个月就像一阵旋风,忙于发货、修复漏洞、缩短响应时间以及增加一些小功能。但尽管 r1 已经进行了 16 次无线更新,它在本质上仍然局限于与大型语言模型交互或访问像优步和 Spotify 等七种特定服务中的一种。
他说:“那是 LAM 的首个版本,是基于从数据工作者那里收集的记录进行训练的,但它并非通用型的——它只与那些服务相连接。” 目前来说,它是否就是他们所说的 LAM 几乎只是学术上的争论;不管这个模型是什么,它都没有提供 Rabbit 在首次亮相时所详述的那些功能。
一个基于网络的多面手代理
但是,吕向我展示的 LAM,兔子已经准备好发布其第一个通用版本,也就是说,它并非针对任何特定的应用程序或界面。
这个版本是一个基于网络的代理,它能推理出完成任何普通任务的步骤,比如购买音乐会门票、注册网站,甚至玩网络游戏。吕说:“我们的目标非常明确:在 9 月底,你的 r1 会突然能做更多的事情。它应该支持你在任何网站上能做的任何事情。”
给定一项任务,它首先将该任务分解为多个步骤,然后通过分析屏幕上看到的内容(如按钮、字段、图像,不论其位置或外观如何)开始执行这些步骤。然后,根据它对网站一般工作方式的了解,与相应的元素进行交互。
我(通过远程操作的吕)让它为一个电影节注册一个新网站。每隔几秒钟采取一个动作,它在谷歌上搜索域名注册商,选了一个(我觉得是个有赞助的),在域名框中输入“电影节”,然后从生成的选项列表中选择了“filmfestival2023.com”,价格是 14 美元。严格来说,我没有给它任何限制条件,比如“2025 年的”或“恐怖电影节”之类的任何内容。
同样地,当吕要求它搜索并购买一个 r1 时,它很快就找到了 eBay,那里有几十个在出售。对于用户来说,这也许是个不错的结果,但对于向媒体展示的公司创始人来说却不是!他一笑而过,再次发出指令,并补充说应该只从官方网站购买。这次这个代理成功了。
接下来,他让它玩 Dictionary.com 的每日单词游戏。这需要一些提示工程(该模型发现了一个漏洞,即它可以通过点击“结束游戏”快速完成),但它做到了。
不过,它使用的是哪种浏览器呢?吕说,是云端全新且干净的浏览器,但他们正在开发本地版本,比如 Chrome 扩展程序,这意味着您可以使用现有的会话,而且无需登录您的服务。
为此,由于用户可以理解(且理应)对让任何公司完全访问其凭证保持警惕,所以该代理未配备这些凭证。吕(Lyu)建议,未来可以私下调用一个包含您凭证的隔离式小型语言模型来执行登录。鉴于这一领域的新颖性,这将如何运作似乎是一个悬而未决的问题,这在一定程度上是意料之中的。
“Still learning”常见释义为“仍在学习;还在学习”
这个演示向我展示了几件事。首先,如果我们暂且相信这家公司及其开发者,认为这并非精心策划的骗局(虽然有些人这么认为),那么它似乎是一个可行的通用网络代理。即便这本身不是首创,那也肯定是第一个能让消费者轻易使用的。
吕说:“有一些公司在做垂直领域的业务,比如针对 Excel 或法律文件的,但我相信这是首批面向消费者的通用代理之一。这个想法是,你可以说出任何能通过网站实现的事情。我们将首先为网站开发通用代理,然后是应用程序。”
其次,这表明提示工程仍然非常必要。你如何表述一个请求很容易就会造成成功与失败的差别,而这可能不是普通消费者能够容忍的。
吕(Lyu)提醒说,这是一个“试验场版本”,绝非最终版本,而且尽管它是一个功能齐全的通用网络代理,但仍有许多方面可以改进。例如,他说:“这个模型足够聪明去做规划,但还不够聪明去跳过某些步骤。”它不会“了解”用户更倾向不在 eBay 上购买电子产品,或者在搜索后应该向下滚动以避开大量的赞助结果。
用户数据目前还不会被采集来改进模型。吕归因于这样一个事实,即对于这样的系统基本上没有评估方法,所以很难定量地说明是否有改进。不过,“教学模式”也即将推出,这样您就可以向它展示如何完成特定类型的任务。
有趣的是,该公司还在研发一款桌面代理程序,它能够与诸如文字处理器、音乐播放器,当然还有浏览器之类的应用程序进行交互。这仍处于早期阶段,但正在推进。“你甚至无需输入目标,它会尝试使用电脑。只要有接口,它就能控制。”
第三,目前仍然没有“杀手级应用”,或者至少没有明显的此类应用。这个智能代理令人印象深刻,但就我个人而言,没什么用,因为不管怎样,我每天不幸地要在浏览器前坐上 8 个小时。几乎可以肯定会有一些很棒的应用,但我一下子想不出有哪个能让基于浏览器的自动程序像机器人吸尘器那样具有明显的实用性。
为什么又不是一个应用程序呢?
我对整个 Rabbit 商业模式提出了常见的异议,本质上就是“这可以是一个应用程序。”
吕(Lyu)显然已经多次听到这种批评,而他对自己的回答很有信心。
他说:“如果你算一算,这根本说不通。没错,从技术上讲是可行的,但从第一天起你就会惹恼苹果和谷歌。他们绝不会让这比 Siri 或 Gemini 更好。就像苹果的智能技术绝不可能更好地控制谷歌的东西,反之亦然。而且他们要拿走 30%的收入!如果一开始我们只是开发一个应用程序,我们永远不会有这样的发展势头。”
兔子(Rabbit)提出的基本观点是,可能会有第三方的人工智能或设备能够访问和操作您的所有其他服务,并且像您一样从外部进行操作。吕称之为“一个跨平台的通用代理系统”。“我们将控制每一个用户界面,网站是一个好的开端。然后我们将进军 Windows 系统、MacOS 系统和手机。”
说到这里:“我们从未说过未来永远不会制造手机。”这难道不是与他们最初关于更小、更简单设备的主张相矛盾吗?也许是,也许不是。
与此同时,他们正在努力开始兑现今年年初做出的承诺。本周某个时候,当 OTA(空中下载技术)更新推出时,任何 r1 车主都应该可以使用新模型。届时也将收到如何调用它的说明。吕以他一贯低调的风格提醒满怀期待的用户。
他说:“我们设定的期望是恰当的。这并不完美。”“这只是人类迄今所能达到的最好水平。”