🔦
你读一句话时,大脑会自动忽略不重要的词,聚焦关键信息。
比如"苹果公司发布了新手机"——你的大脑瞬间知道这句话在说苹果公司的手机,不是水果。
AI 怎么做到同样的事?答案是每秒做上亿次"该看哪个字"的决策
↓ 往下看,3 分钟搞懂
🤖 AI

注意力机制

Attention Mechanism

注意力机制就是 AI 版的"考试划重点"。
🧒 极简版🧑 场景版🎓 精准版

🧒 极简版

想象你在考场上,面前有一张满满的试卷。你手里有一个聚光灯,只能照亮一小块地方。你会把灯打在哪?当然是最重要的题目上!

AI 读句子也是这样——它不是平均地看每个字,而是把"聚光灯"打在最关键的词上,其他词暂时变暗。

🧑 场景版

你在翻译"The cat sat on the mat"。翻到"cat"这个词时,你需要看看整句话的其他词来理解上下文:sat 说明猫在坐着,mat 说明是坐在垫子上。

注意力机制做的就是这个——翻译每个词的时候,回头看看所有其他词,计算"哪个和我关系最大"。关系大的给高权重(多看几眼),关系小的给低权重(瞟一眼就过)。

🎓 精准版

注意力的核心公式:Attention(Q,K,V) = softmax(QKT/√d) × V

每个词生成三个向量:
· Query(查询):"我在找什么?"——手电筒的方向
· Key(键):"我是什么?"——每个词举着的名牌
· Value(值):"我的内容是什么?"——名牌背后的真实信息

Q 和 K 做点积 → 得到注意力分数 → softmax 归一化 → 加权求和 V。这就是 Transformer 的灵魂。

🧪 动手试试:点击一个词,看它"关注"了谁

在下面这句话中点击任意一个词,看注意力权重分布

👆 点击任意一个词
点击上方的某个词,看看它最"关注"句子中的哪些词。

📦 拆开看:注意力机制的三个核心

点击卡片翻转看详情

🔍Query 查询点我翻转 ↻
"我在找什么?"——当前词生成的查询向量,决定了它想关注什么类型的信息。🔦 手电筒的方向
🏷️Key 键点我翻转 ↻
"我是什么?"——每个词举着的名牌。Query 和 Key 配对越好(点积越大),说明这两个词关系越密切。📛 每人举着的名牌
📝Value 值点我翻转 ↻
"我的真实内容。"——配对成功后,实际传递的信息。权重越高的词,它的 Value 对最终结果贡献越大。📄 名牌背后的真人

🔄 注意力计算流程

📝 生成 Q/K/V🔢 计算匹配分📊 归一化权重⚖️ 加权求和✨ 输出结果
每个词生成三个向量:Query(我想找什么)、Key(我是什么)、Value(我的内容)。

⚠️ 别搞混

❌ 很多人以为
注意力机制就是"只看重要的词,忽略其他词"。
✅ 其实是
不是忽略,而是给每个词分配不同的关注度权重。所有词都参与计算,只是权重有高有低。即使权重很低的词也贡献了信息。
❌ 很多人以为
AI 的"注意力"和人类的注意力是一回事。
✅ 其实是
人类注意力是生物认知过程,AI 的注意力是纯数学计算(矩阵乘法 + softmax)。名字相似但本质不同。AI 可以同时"关注"所有词,人类不行。
❌ 很多人以为
一个词只会关注一个其他词。
✅ 其实是
每个词同时关注所有其他词,只是权重不同。而且通过多头注意力,同一个词可以从不同角度关注不同内容。

📏 类比的边界

⚠️聚光灯一次只能照一个地方,但注意力机制可以同时关注所有词,只是亮度不同。
⚠️聚光灯是人为控制的,但注意力权重是模型自动学习出来的,不需要人工设定。
⚠️考场聚光灯是视觉比喻,但注意力机制处理的是高维数学向量,不是图像。

🔗 相关概念

✅ 秒测

1注意力机制处理一句话时,是怎么工作的?
A. 一个字一个字按顺序读
B. 所有字同时互相"看",计算谁和谁关系最大
2Query、Key、Value 分别对应什么?
A. 问题、答案、分数
B. "我在找什么"、"我是什么"、"我的真实内容"
3注意力权重低的词会被完全忽略吗?
A. 是的,权重为0就完全忽略
B. 不会,所有词都参与计算,只是贡献大小不同

手机端可长按上方图片保存到相册