🧒 极简版
想象你在考场上,面前有一张满满的试卷。你手里有一个聚光灯,只能照亮一小块地方。你会把灯打在哪?当然是最重要的题目上!
AI 读句子也是这样——它不是平均地看每个字,而是把"聚光灯"打在最关键的词上,其他词暂时变暗。
🧑 场景版
你在翻译"The cat sat on the mat"。翻到"cat"这个词时,你需要看看整句话的其他词来理解上下文:sat 说明猫在坐着,mat 说明是坐在垫子上。
注意力机制做的就是这个——翻译每个词的时候,回头看看所有其他词,计算"哪个和我关系最大"。关系大的给高权重(多看几眼),关系小的给低权重(瞟一眼就过)。
🎓 精准版
注意力的核心公式:Attention(Q,K,V) = softmax(QKT/√d) × V
每个词生成三个向量:
· Query(查询):"我在找什么?"——手电筒的方向
· Key(键):"我是什么?"——每个词举着的名牌
· Value(值):"我的内容是什么?"——名牌背后的真实信息
Q 和 K 做点积 → 得到注意力分数 → softmax 归一化 → 加权求和 V。这就是 Transformer 的灵魂。