TTT 模型可能是生成式人工智能的下一个前沿领域。
在被称为“Transformer”的人工智能形式占据主导地位多年之后,人们正在寻找新的架构。
Transformer 是 OpenAI 的视频生成模型 Sora 的基础,也是 Anthropic 的 Claude、谷歌的 Gemini 和 GPT-4o 等文本生成模型的核心。但它们开始遭遇技术障碍,尤其是与计算相关的障碍。
至少在现成的硬件上运行时,Transformer 在处理和分析大量数据方面并非特别高效。并且随着公司构建和扩展基础设施以满足 Transformer 的需求,这导致电力需求大幅且可能不可持续地增长。
本月提出的一种有前景的架构是测试时训练(TTT),它由斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和 Meta 的研究人员历经一年半的时间开发而成。该研究团队声称,TTT 模型不仅能够处理比变形器多得多的数据,而且在处理数据时消耗的计算能力也少得多。
“变压器中的隐藏状态”
变压器的一个基本组成部分是“隐藏状态”,本质上它是一长串数据。当变压器处理某事物时,它会向隐藏状态添加条目以“记住”刚刚处理的内容。例如,如果模型正在处理一本书,隐藏状态值将是诸如单词(或单词的部分)的表示之类的东西。
斯坦福大学的博士后、TTT 研究的共同贡献者孙宇(音译)告诉 TechCrunch:“如果你把一个变压器视为一个智能实体,那么查找表——它的隐藏状态——就是变压器的大脑。这种专门的大脑使变压器具备了诸如上下文学习等众所周知的能力。”
隐藏状态是使 Transformer 如此强大的部分原因。但它也对其造成了阻碍。对于 Transformer 刚刚读过的一本书,哪怕要“说出”一个关于它的单词,该模型都必须扫描其整个查找表——这项任务在计算量上相当于重新读完整本书。
因此,孙(Sun)和团队有了用机器学习模型替代隐藏状态的想法——打个比方,就像人工智能的嵌套玩偶,一个模型嵌套在另一个模型之中。
这有点技术化,但要点是,TTT 模型的内部机器学习模型与变压器的查找表不同,在处理更多数据时不会不断增长。相反,它将处理的数据编码为称为权重的代表性变量,这就是 TTT 模型性能出色的原因。无论 TTT 模型处理多少数据,其内部模型的大小都不会改变。
孙(Sun)认为,未来的 TTT 模型能够高效处理数十亿条数据,从文字到图像,再到音频记录和视频。这远远超出了当今模型的能力。
孙说:“我们的系统能够就一本书说出 X 个字,而无需以重读 X 次这本书的计算复杂度来实现。” “基于 Transformer 的大型视频模型,比如 Sora,只能处理 10 秒的视频,因为它们只有一个查询表‘大脑’。我们的最终目标是开发一个能够处理长视频的系统,类似于人类一生的视觉体验。”
对 TTT 模型的质疑
那么,TTT 模型最终会取代变形金刚吗?有可能。但现在还很难确定。
TTT 模型并非是可直接替代 Transformer 的方案。并且研究人员仅开发了两个小型模型用于研究,这使得 TTT 作为一种方法,目前难以与现有的一些较大规模的 Transformer 实现进行比较。
伦敦国王学院信息学系的高级讲师迈克·库克(Mike Cook)没有参与 TTT 研究,他表示:“我认为这是一项非常有趣的创新,如果数据能支持其提高效率的说法,那是个好消息,但我无法告诉你它是否优于现有的架构。我本科时,我的一位老教授常讲一个笑话:如何解决计算机科学中的任何问题?再增加一层抽象。在神经网络内部再添加一个神经网络,这肯定让我想起了那个笑话。”
无论如何,对变压器替代品的研究步伐不断加快,这表明人们越来越认识到取得突破的必要性。
本周,人工智能初创公司 Mistral 发布了一个名为 Codestral Mamba 的模型,该模型基于另一种名为状态空间模型(SSMs)的替代转换器的技术。与 TTT 模型一样,SSMs 似乎比转换器的计算效率更高,并且能够扩展到更大量的数据。
AI21 Labs 也在探索 SSMs。Cartesia 也是如此,它开创了一些首批 SSMs 以及与 Codestral Mamba 同名的产品,即 Mamba 和 Mamba - 2。
如果这些努力取得成功,生成式人工智能可能会比现在更容易获得和更广泛地应用——无论结果是好是坏。