Transformer · 变换器架构
点击一个词,看它和其他词的"注意力权重"——线条越粗、颜色越深,表示关联越强
理解一个概念,要知道它从哪来、替代了谁、催生了什么、常被跟谁混淆
点击卡片翻转看详情——每个零件缺一不可
从输入到输出,一步步看 Transformer 怎么工作
同样翻译一句话,两种架构的差别像"传话筒"和"耳机会议"
一个词接一个词处理。到最后一个词时,开头的信息已经衰减。不能并行,GPU 利用率极低。翻译长句时经常丢失前文含义。
所有词同时互相看。每个词直接与任意距离的词建立关联,无信息衰减。完全可并行,GPU 利用率拉满,速度提升 10-100 倍。
问题:翻译这句话——"The cat sat on the mat because it was tired."
关键难点:"it"到底指的是 cat 还是 mat?
Google 翻译用 RNN,从头到尾逐词处理。到"tired"时,模型已经快"忘了"开头的"cat"。结果:"it"经常被错误翻译,指代混乱。
Google Brain 团队发布这篇论文,提出 Transformer 架构。同一句话,每个词同时看所有词,"it"直接和"cat"建立强关联(因为"tired"是形容有生命体的)。翻译准确率暴涨。
这篇论文直接催生了 BERT(2018)、GPT-2(2019)、GPT-3(2020)、ChatGPT(2022)、GPT-4(2023)、Claude(2023-2025)……整个大语言模型时代的基础,都是 Transformer。
一篇论文,催生了万亿美元的产业。Transformer 是 AI 领域过去十年最重要的单一发明。