📝 展开文字版内容(供搜索引擎索引)
💾 上下文缓存
一句话类比:开卷考试——书已经翻好放在桌上了,不用每道题都重新翻。
大白话说:Context Caching 是一种 AI API 优化技术,将长 prompt(如系统指令+文档)的中间计算结果(KV 向量)持久化存储。后续请求如果前缀完全一致,直接复用缓存跳过重复计算,输入成本降低 90%,响应速度大幅提升。
拆开看:
- :
- :
- :
- :
常见误解:
❌ → ✅
❌ → ✅
❌ → ✅
类比的边界:
- AI 缓存的是高维 KV 向量(数学表示),不是简单的文字快照
- 真实的书翻过后折角不会消失,但 AI 缓存有 TTL 过期时间
- 翻书可以跳着看部分复用,AI 必须精确前缀匹配