令牌是当今生成式人工智能表现不佳的一个重要原因

Chat中文镜像

生成式AI模型和人类处理文本的方式并不相同。理解它们基于“标记（token）”的内部环境可能有助于解释它们一些奇怪的行为，以及它们顽固的局限性。

大多数模型，从像Gemma这样的小型设备模型到OpenAI领先的GPT-4o，都是构建在一种被称为transformer的架构上。由于transformers在文本和其他类型的数据之间产生关联的方式，它们无法直接输入或输出原始文本，至少不是没有大量的计算。

所以，基于实用和技术上的考虑，如今的Transformer模型处理被分解成小块、称为token的文本 — 这个过程称为标记化。

标记可以是词，比如“fantastic”。或者它们可以是音节，比如“fan”，“tas”和“tic”。根据标记器的不同，它们甚至可以是单词中的单个字符（例如，“f”，“a”，“n”，“t”，“a”，“s”，“t”，“i”，“c”）。

利用这种方法，变压器可以在达到上下文窗口的上限之前，以语义意义上的方式获取更多信息。但是标记化也会引入偏见。

一些标记有奇怪的空格，可能会影响到变压器的正常运行。例如，一个分词器可能会将“once upon a time”编码为“once,” “upon,” “a,” “time”，而将带有尾随空格的“once upon a ”编码为“once,” “upon,” “a,” ” .” 根据模型如何被提示 — 使用“once upon a”还是“once upon a ” — 结果可能完全不同，因为模型不能像人一样理解这两者的含义是相同的。

分词器也会不同对待大小写。对于模型来说，“Hello”并不一定等同于“HELLO”；“hello”通常是一个标记（取决于分词器），而“HELLO”可以是多达三个标记（“HE,”，“El,”和“O”）。这就是为什么许多转换器无法通过大写字母测试的原因。

“如何准确定义语言模型中的‘单词’这个问题确实颇具挑战性，即使我们请人类专家就理想的标记词汇达成一致，模型可能仍然会发现进一步‘切分’的方式更为有用，”东北大学研究大型语言模型可解释性的博士生谢里登·福赫特告诉TechCrunch。“我猜想，由于这种模糊性，不存在所谓的完美分词器。”

这种“模糊性”在非英语语言中会导致更多问题。

许多标记化方法假定句子中的空格表示一个新的单词。这是因为它们是以英语为基础设计的。但并非所有语言都使用空格来分隔单词。比如，中文和日文就不使用空格——韩文、泰文和高棉文也是如此。

2023年牛津大学的一项研究发现，由于非英语语言的标记方式不同，使用变形金刚需要的时间完成非英语语言的任务可能是完成相同任务的英语版本的两倍。另一项研究也发现，使用较少“标记效率”语言的用户可能会看到模型表现更差，但在使用时却要付出更多的费用，因为许多人工智能供应商是按标记收费的。

分词器通常会将表意文字系统中的每个字符视为一个独立的标记，这些系统中的印刷符号代表的是单词而与发音无关，比如中文，这会导致标记数量很高。同样，分词器处理词缀语言时，比如土耳其语，词语由称为语素的小含义词元组成，往往会将每个语素转换为一个标记，增加整体标记数量。（泰语中“你好”的等效词“สวัสดี”由六个标记组成）。

2023年，谷歌DeepMind的AI研究员Yennie Jun进行了一项分析，比较了不同语言的标记化及其下游影响。Jun利用一个包含52种语言翻译的平行文本数据集，表明有些语言需要多达英语的10倍标记来捕捉相同的含义。

除了语言不平等之外，标记化可能解释了为什么今天的模型在数学方面表现不佳。

数字很少被一贯地标记化。因为它们并不真正知道数字是什么，所以标记器可能会把“380”视为一个标记，但表示“381”为一对（“38”和“1”）- 有效地破坏了数字之间的关系并导致方程和公式的结果。结果是变压器混乱；最近的一篇论文显示，模型很难理解重复的数值模式和上下文，特别是时间数据。（见：GPT-4认为7,735大于7,926）。

这也是为什么模型在解决易位词问题或倒转单词方面并不擅长的原因。

当然，分词对生成式人工智能提出了挑战。这些挑战能够解决吗？

可能。

Feucht指出“字节级”状态空间模型，如MambaByte，可以摄取的数据比转换器多得多，而不会因为完全取消标记化而产生性能损失。MambaByte直接处理代表文本和其他数据的原始字节，可在语言分析任务上与一些转换器模型竞争，同时更好地处理“噪音”，如具有交换字符、间隔和大写字符的单词。

像曼巴字节这样的模型还处于早期研究阶段。

"最好让模型直接查看字符，而不是强行进行标记化，但目前对于变压器来说，这在计算上是不可行的，"Feucht说道。"特别是对于变压器模型，计算量随着序列长度的增加呈二次方增长，因此我们真的希望使用短文本表示。"

除非有令人瞩目的标记化突破，否则新的模型架构似乎将是关键。