Tokenizer

语言模型通过 Token（常见字符序列）处理文本。本页帮助你直观看到文本如何被切分，并给出准确的 Token 数量，便于评估提示词长度与内容规划。

输入文本支持 Ctrl / ⌘ + Enter

模型

等待输入

左侧输入文本后点击计算，即时看到 Token 分析结果

Token 是什么: 模型不是按“字/词”读取文本，而是按 Token 读取。

经验法则: 英文常见场景下 1 Token ≈ 4 个字符 ≈ 3/4 个单词，仅供理解。

准确计数: 使用 BPE 编码（tiktoken 兼容）进行分词，结果可直接参考。

模型覆盖: GPT-4o / GPT-4 / GPT-3.5 等主流模型。

细节拆分: 统计中文、英文、数字、符号、空格构成比例。

Token 可视化 同一颜色表示同一个 token 片段

输入文本后会显示分词结果。

颜色仅用于区分 token 边界，不代表语义分类。

使用建议

输入内容越接近真实提示词/正文，计数越有参考价值。模型不同会导致 token 化差异，请在上方选择与你目标模型一致的选项。