Context Caching
理解一个概念,先知道它在哪——它的前后左右都是谁
同一份合同,AI 每次怎么处理?
每次从第 1 页翻到第 500 页
100 次 × 10 万 token × $3/M
第 1 次翻完,后面直接翻到折角页
1 次全价 + 99 次 × 10%
点击卡片翻转看详情
点击每一步查看详情,或用按钮控制播放
调整参数,实时对比"有缓存 vs 无缓存"的成本和速度
同一份 50 页合同,100 个用户每天提问
每次用户提问,AI 都要先"读"完一整份 50 页合同(约 10 万 token)。
每天 100 个用户 = 每天处理 1000 万 token 的重复输入。
每天烧 $30合同内容没变,但 AI 每次都从头读。像每次开会前都要重新自我介绍。
响应时间:~5 秒(先读合同再回答)
同一份合同第一次读完后缓存 KV 向量。后面 99 个用户提问,直接复用缓存。
1000 万 token 变成 10 万(只有第一次是全价)。
每天只花 $3.30省了 89% 的费用。合同没变,AI 也不用每次重读了。
响应时间:~1 秒(直接从缓存开始)
关于 Context Caching,三个最容易搞错的地方
翻书类比在哪里不完全准确
点击已解锁的概念继续探索
3 道题,验证你是否真正理解了 Context Caching