← 返回首页
token4all Tokenizer Lab

Tokenizer

语言模型通过 Token(常见字符序列)处理文本。本页帮助你直观看到文本如何被切分, 并给出准确的 Token 数量,便于评估提示词长度与内容规划。

模型
等待输入
左侧输入文本后点击计算,即时看到 Token 分析结果
Token 是什么: 模型不是按“字/词”读取文本,而是按 Token 读取。
经验法则: 英文常见场景下 1 Token ≈ 4 个字符 ≈ 3/4 个单词,仅供理解。
准确计数: 使用 BPE 编码(tiktoken 兼容)进行分词,结果可直接参考。
模型覆盖: GPT-4o / GPT-4 / GPT-3.5 等主流模型。
细节拆分: 统计中文、英文、数字、符号、空格构成比例。
Token 可视化 同一颜色表示同一个 token 片段
输入文本后会显示分词结果。
颜色仅用于区分 token 边界,不代表语义分类。
使用建议
输入内容越接近真实提示词/正文,计数越有参考价值。模型不同会导致 token 化差异, 请在上方选择与你目标模型一致的选项。