对 OpenAI o1 的第一印象:一个被设计得过度思考的人工智能
OpenAI 于周四发布了其新的 o1 模型,这让 ChatGPT 用户首次有机会试用在回答之前会暂停“思考”的人工智能模型。在 OpenAI 内部,这些代号为“草莓”的模型被大肆宣传。但“草莓”真的名副其实吗?
有几分;在一定程度上;差不多;可以这么说
与 GPT-4o 相比,o1 模型给人的感觉是前进了一步,又后退了两步。OpenAI 的 o1 在推理和回答复杂问题方面表现出色,但使用该模型的成本大约是 GPT-4o 的四倍。OpenAI 的最新模型缺乏使 GPT-4o 如此令人印象深刻的工具、多模态能力和速度。事实上,OpenAI 甚至在其帮助页面上承认“对于大多数提示,GPT-4o 仍然是最佳选择”,并在其他地方指出 o1 在较简单的任务上表现不佳。
纽约大学研究人工智能模型的教授拉维德·施瓦茨·齐夫(Ravid Shwartz Ziv)表示:“这令人印象深刻,但我认为改进不是非常显著。它在某些问题上表现更好,但并没有全面的改进。”
出于所有这些原因,重要的是仅将 o1 用于其真正旨在帮助解决的问题:重大问题。需要明确的是,如今大多数人并未使用生成式人工智能来回答此类问题,很大程度上是因为当前的人工智能模型在这方面表现不佳。然而,o1 是朝着这个方向迈出的试探性一步。
深入思考重大理念
OpenAI 的 o1 独具特色,因为它在回答之前会“思考”,将大问题分解为小步骤,并试图确定在这些步骤中哪些是正确的,哪些是错误的。这种“多步骤推理”并非全新(研究人员多年来已提出此概念,You.com 在处理复杂查询时也会用到),但直到最近才变得实用。
Workera 首席执行官兼斯坦福兼职讲师基安·卡坦福鲁什(Kian Katanforoosh)在一次采访中表示:“人工智能领域令人兴奋不已。”他教授机器学习课程。“如果你能训练一种强化学习算法,并结合 OpenAI 所拥有的一些语言模型技术,从技术上讲,你就可以创建逐步思考的能力,并让人工智能模型从你试图解决的大思路上倒推。”
OpenAI o1 的价格也独具一格地高昂。在大多数模型中,您需要为输入令牌和输出令牌付费。然而,o1 增加了一个隐藏的过程(模型将大问题分解成的小步骤),这会增加大量您无法完全看到的计算量。OpenAI 对这个过程的一些细节加以隐藏以保持其竞争优势。也就是说,您仍会以“推理令牌”的形式为这些内容付费。这进一步强调了为什么您在使用 OpenAI o1 时需要小心,以免在询问内华达州的首府在哪里时被收取大量令牌费用。
不过,有一种人工智能模型能帮助你“从宏大的想法往回推导”,这个想法很强大。实际上,该模型在这方面做得相当不错。
在一个例子中,我让 ChatGPT 预览版帮助我的家人规划感恩节,这是一项可能受益于一些公正的逻辑和推理的任务。具体来说,我想帮忙弄清楚两个烤箱是否足以供 11 人烹饪感恩节晚餐,并且想讨论我们是否应该考虑租一个爱彼迎民宿来使用第三个烤箱。
经过 12 秒的“思考”,ChatGPT 为我写了一篇 750 多个单词的回复,最终告诉我,通过一些精心的规划,两个烤箱应该就足够了,这能让我的家人节省成本并有更多时间相聚。但它在每个步骤都为我分解了它的思考过程,并解释了它是如何考虑所有这些外部因素的,包括成本、家庭时间和烤箱管理。
ChatGPT o1 预览版告诉我如何在举办活动的房子里优先安排烤箱空间,这很明智。奇怪的是,它建议我考虑当天租一个便携式烤箱。也就是说,这个模型的表现比 GPT-4o 好得多,GPT-4o 需要多次追问我到底要带什么菜,然后给我的基本建议我觉得不太有用。
询问有关感恩节晚餐的事宜可能看起来很傻,但你可以看到这个工具对于分解复杂任务会有多大帮助。
我还让 o1 帮我规划一个忙碌的工作日,在这一天里我需要往返于机场、在不同地点参加多个面对面的会议,还要去办公室。它给了我一个非常详细的计划,但可能有点太详细了。有时候,所有额外添加的步骤会让人有点应接不暇。
对于一个简单的问题,o1 做得太多了——它不知道什么时候该停止过度思考。我问在美国哪里可以找到雪松树,它给出了 800 多个字的回答,概述了美国各种雪松树的情况,包括它们的学名。不知为何,它甚至在某个时候还参考了 OpenAI 的政策。GPT-4o 在回答这个问题上做得好得多,给我大概三句话,解释说在全国都能找到这种树。
“Tempering expectations”常见释义为“降低期望;调整期望”
在某些方面,Strawberry 从未达到过炒作的预期。关于 OpenAI 的推理模型的报道可以追溯到 2023 年 11 月,就在那时,每个人都在寻找 OpenAI 董事会驱逐山姆·奥特曼的原因。这在人工智能领域引发了谣言,使得一些人猜测 Strawberry 是通用人工智能(AGI)的一种形式,即 OpenAI 最终渴望创造的那种先进的人工智能版本。
奥特曼证实 o1 不是通用人工智能,以消除任何疑虑,并不是说您使用后会感到困惑。这位首席执行官还降低了对此次发布的预期,他在推特上表示:“o1 仍有缺陷,仍有限制,而且它在首次使用时看起来似乎比您使用一段时间后更令人印象深刻。”
人工智能领域的其他部分正在接受不如预期那般令人兴奋的发布这一现实。
“这种炒作在某种程度上超出了 OpenAI 的控制,”AI 初创公司 ReWorkd 的研究工程师罗汉·潘迪(Rohan Pandey)说,该公司使用 OpenAI 的模型构建网络爬虫。
他希望 o1 的推理能力足够出色,能够解决 GPT-4 所不能解决的一系列特定的复杂问题。这可能是业内大多数人对 o1 的看法,但它并不像 GPT-4 对于行业那样是具有革命性的进步。
Brightwave 首席执行官迈克·康诺弗(Mike Conover)此前曾与人共同创建了 Databricks 的人工智能模型多利(Dolly),他在接受采访时表示:“每个人都在等待能力上的阶跃式变化,但不清楚这是否代表了这种变化。我认为就是这么简单。”
这里的价值是什么?
用来创建 o1 的基本原理可以追溯到多年前。风险投资公司 S32 的前谷歌员工兼首席执行官安迪·哈里森(Andy Harrison)指出,谷歌在 2016 年使用了类似的技术来创建 AlphaGo,这是第一个在围棋比赛中击败世界冠军的人工智能系统。AlphaGo 通过无数次与自己对弈进行训练,本质上是自我学习,直到达到超人的能力。
他指出,这引发了人工智能领域一个由来已久的争论。
哈里森在一次采访中说:“一派认为,你可以通过这种代理流程实现工作流程的自动化。另一派认为,如果你有通用的智能和推理能力,就不需要工作流程了,就像人类一样,人工智能会直接做出判断。”
哈里森说他在阵营一,而阵营二要求你信任人工智能能做出正确的决定。他认为我们还没达到那种程度。
然而,其他人认为 o1 不太像一个决策者,而更像是一个在重大决策时质疑你想法的工具。
卡坦福鲁什(Katanforoosh),Workera 的首席执行官,描述了一个例子,当时他要面试一位数据科学家来他的公司工作。他告诉 OpenAI o1 说他只有 30 分钟,并且想要评估一定数量的技能。他可以借助人工智能模型逆向思考,看看自己的想法是否正确,而 o1 会理解时间限制之类的因素。
问题在于这个有用的工具是否值这么高的价格。随着人工智能模型的价格持续下降,o1 是我们很久以来见到的首批价格上涨的人工智能模型之一。