多头注意力 — Aha! 秒懂

Aha!AI 驱动的可视化概念百科

📋 概念库 📖 图鉴 🌌 星云图缘起 👑 Pro

📝 展开文字版内容（供搜索引擎索引）

🎥 多头注意力

一句话类比：像拍一场比赛时同时开多台摄像机：一个镜头看持球人，一个看跑位，一个看防守，一个看时间，最后合成完整理解。

大白话说：多头注意力是 Transformer 的核心组件之一。它会把同一个输入并行投影到多个注意力头，让模型同时从不同关系维度观察上下文，再把这些结果拼接并线性融合，所以得到的表示比单头注意力更丰富。

拆开看：

多组 Q/K/V 投影：为每个头准备独立的查询、键、值表示
独立注意力头：每个头在不同子空间里学习自己的关注模式
Concat 拼接：把各头结果合并，而不是只选一个
输出线性层：把多视角结果重新混合成新的 token 表示

常见误解：

❌ 多个头只是把同一件事重复算很多遍 → ✅ 每个头有不同参数，通常会学到不同的关系模式

❌ 头越多一定越强 → ✅ 头数要和总维度、任务需求一起平衡

类比的边界：

真实摄像机由导演分工，注意力头的分工是训练学出来的
摄像机拍的是画面，注意力头处理的是向量和权重
不同任务里每个头学到的模式不一定固定

🏠首页 📋概念库 📖图鉴 🌌星图 📚我的