Multi-Head Attention
先知道它在 Transformer 家族里处于哪里,再理解它为什么重要。
这里固定看词“手机”。切换不同的头,感受“同一个词”为什么会从不同角度看上下文。
点卡片翻面,看看每一部分到底干了什么。
它不是“重复看很多次”,而是“并行地看,再统一汇总”。
多头注意力最核心的价值,不只是“更快”,而是“同一时刻保留多个关系维度”。
如果只有单头注意力,模型更像只有一台摄像机。它也能拍到重要信息,但一个镜头很难同时兼顾“主语是谁”“属性是什么”“时间在哪里”“长距离指代是谁”。
有了多头注意力,同一句话就能被多个镜头同时拆解。一个头抓语法,一个头抓实体,一个头抓时间,一个头抓远距离关系,最后一起合成更丰富的理解。
真正容易混淆的,不是公式,而是对“头”的直觉理解。
多个头只是把同一件事重复算很多遍。
✅ 其实是每个头有不同的投影参数,会在不同子空间里学习不同关注模式,所以重点不一样。
头越多,模型一定越强。
✅ 其实是头太多但每头维度太小,反而可能学不到有效信息。关键是“头数 × 每头维度 × 任务需求”的平衡。
“多机位拍摄”这个类比很好懂,但也有边界。
有些概念你已经解锁,可以直接串着看。
答完这 3 题,基本就知道自己是不是已经吃透了。