📝 展开文字版内容(供搜索引擎索引)
🎥 多头注意力
一句话类比:像拍一场比赛时同时开多台摄像机:一个镜头看持球人,一个看跑位,一个看防守,一个看时间,最后合成完整理解。
大白话说:多头注意力是 Transformer 的核心组件之一。它会把同一个输入并行投影到多个注意力头,让模型同时从不同关系维度观察上下文,再把这些结果拼接并线性融合,所以得到的表示比单头注意力更丰富。
拆开看:
- 多组 Q/K/V 投影:为每个头准备独立的查询、键、值表示
- 独立注意力头:每个头在不同子空间里学习自己的关注模式
- Concat 拼接:把各头结果合并,而不是只选一个
- 输出线性层:把多视角结果重新混合成新的 token 表示
常见误解:
❌ 多个头只是把同一件事重复算很多遍 → ✅ 每个头有不同参数,通常会学到不同的关系模式
❌ 头越多一定越强 → ✅ 头数要和总维度、任务需求一起平衡
类比的边界:
- 真实摄像机由导演分工,注意力头的分工是训练学出来的
- 摄像机拍的是画面,注意力头处理的是向量和权重
- 不同任务里每个头学到的模式不一定固定