📝 展开文字版内容(供搜索引擎索引)
🧩✂️ Token
一句话类比:乐高积木——AI 不认识文字,只认识一块块编了号的积木
大白话说:Token 是 AI 处理文字的最小单位。AI 不直接读文字,而是先把你的话切成一块块'积木'(Token),每块积木对应一个数字编号,然后用这些数字来理解和生成回答。Token 也是 AI 服务的计费单位。
拆开看:
- ✂️ 分词器:把文字切成 Token 的工具,不同模型用不同的切法
- 📖 词表:所有 Token 的字典,每个 Token 对应一个数字 ID
- 📐 上下文窗口:模型一次能处理的最大 Token 数
常见误解:
❌ 一个 Token 就是一个字或一个词 → ✅ Token 大小不固定。英文常见词=1 token,长词被拆分。中文每字约 1-2 个 token。标点也算 token
❌ 上下文窗口 128K 意味着可以发 128K 个字 → ✅ 128K token ≈ 9万字中文,而且输入+输出共享这个窗口
类比的边界:
- 乐高积木大小固定,但 Token 大小不固定
- 乐高可以任意组合,但 Token 切分方式由算法决定