Skip to content

Tokenizer

复制本地路径 | 在线编辑

其实就是把用户输入的文本切成 token 的这一个过程。

Tokenizer(分词器)负责把用户输入的文本切成 token,再映射成模型能直接计算的 token ID(整数序列)。换句话说:模型读到的并不是原始字符串,而是「分词 + 编号」之后的结果;因此 tokenizer 是推理与训练里最先接触的一层。

参考文章:https://zhuanlan.zhihu.com/p/2008285806222132143

同一段 prompt 在送进 LLM 之前必须先经 tokenizer 编码;最终得到的 token 个数以及每个位置上的 ID,取决于具体分词器及其实现与配置(词表、归一化规则、是否合并子词等)。以 Qwen3 的分词器为例,下面词组经编码后会得到不同的切分:例如 "hello" 只对应 1 个 ID,而 "InfraTech" 则被拆成 3 个 ID。

Comments

本文阅读 Loading 本站访问 Loading 访客 Loading