🧠
ChatGPT 能写诗、能写代码、能解数学题、能聊感情。
但它的核心能力,说穿了只有一个:
猜下一个词
一个只会"猜词"的机器,怎么看起来像有智慧?
↓ 往下看,3 分钟搞懂
🤖 AI

LLM

Large Language Model · 大语言模型

LLM 不理解世界,但它读过全人类的文字,极其擅长"接话"。
🧒 极简版🧑 场景版🎓 精准版

🧒 极简版

你和朋友玩"接龙"游戏:你说"从前有一个",朋友接"小公主",你再接"她住在",朋友接"城堡里"。

LLM 就是一个超级会接龙的机器——它读了全人类写过的几乎所有文字(书、网站、论文、代码……),所以不管你说什么开头,它都能接出非常合理的下文。

它不是"懂"了你的意思,它只是太会猜下一个词了

🧑 场景版

你在手机上打字:"今天天气"——输入法自动建议"真好"。这是最简单的"预测下一个词"。

LLM 做的是同一件事,但规模大了一亿倍
· 训练数据:整个互联网的文字(万亿个 token)
· 参数数量:几百亿到上万亿个"旋钮"
· 预测精度:不是只猜一两个词,是根据整个上下文预测最合理的续写

当预测精度足够高时,"猜词"的行为就看起来像理解、像推理、像创造。这就是为什么 ChatGPT 感觉像有智慧。

🎓 精准版

LLM 是基于 Transformer 架构的自回归语言模型,核心目标函数是最大化 P(x_t | x_1...x_{t-1})——给定前文所有 token,预测下一个 token 的概率分布。

关键技术栈:
· Transformer(2017):自注意力机制实现全局上下文理解
· Scaling Laws:模型越大 + 数据越多 + 训练越久 → 性能可预测地提升
· RLHF / Constitutional AI:用人类反馈微调,让模型"有用且无害"
· 涌现能力(Emergent Abilities):模型超过一定规模后突然展现出训练目标中没有明确要求的能力(如推理、翻译)

🧪 动手试试:你能像 LLM 一样猜词吗?

选择你认为最合理的下一个词——这就是 LLM 每时每刻在做的事

📊 "大"到底有多大?

LLM 的"大"指参数数量——每个参数就像大脑里的一个"连接"

GPT-2
15 亿
2019 年
能写简单文章
GPT-3
1750 亿
2020 年
震惊世界的"涌现"
GPT-4
~1.8 万亿*
2023 年
接近人类专家水平
Claude Opus
未公开
2024-2025 年
200K→1M 上下文窗口

*GPT-4 参数为推测值,OpenAI 未公开。人脑约有 100 万亿个突触连接。

📦 拆开看

点击卡片翻转

📚训练数据点我翻转 ↻
整个互联网的文字:书籍、维基百科、代码、论文、社交媒体……万亿个 token。就像一个学生读了人类有史以来写过的所有书。📖 读过的所有书
🎛️参数点我翻转 ↻
几百亿到上万亿个可调节的数字"旋钮"。训练过程就是不断调这些旋钮,让模型的预测越来越准。参数越多,模型越"聪明"。🧠 大脑里的突触连接
🔮预测能力点我翻转 ↻
LLM 的唯一技能:给定上文,预测最合理的下一个 token。当这个能力强到一定程度,就"涌现"出了推理、翻译、写代码等看似需要智能的能力。🎯 超级接龙高手

🔄 LLM 怎么生成回答?

📝 收到你的话🔢 变成 Token🧠 预测下一个词🔁 一个接一个生成📤 输出完整回答
你输入了一个问题,比如"为什么天是蓝的?"

💡 一个真实的例子

你问 LLM:"为什么天是蓝的?"

LLM 内部的过程(极简版):

1. 根据"为什么天是蓝的"这个上文,预测下一个词最可能是"因为"(概率85%)

2. 有了"因为"之后,预测下一个词最可能是"阳光"(概率72%)

3. 有了"阳光"之后,预测"在""穿过""大气层""时""会""发生""散射"……

它没有"理解"光学原理。它只是读了无数篇解释天空颜色的文章,知道在"为什么天是蓝的"后面,接"因为阳光散射"是最自然的续写。

⚠️ 别搞混

❌ 很多人以为
LLM 真的"理解"了语言的意思。
✅ 其实是
LLM 是统计模式匹配——它学会了"在什么上文后面接什么下文最合理"。至于它是否"真正理解",目前学术界还在争论。
❌ 很多人以为
LLM 知道自己说的对不对。
✅ 其实是
LLM 不区分事实和虚构——它只选择"最可能的下一个词"。如果训练数据中某个错误信息出现频率高,LLM 会自信地重复这个错误(幻觉)。
❌ 很多人以为
模型越大就一定越好。
✅ 其实是
模型大小、训练数据质量和训练方法三者同等重要。一个小模型配好的数据和训练,可能胜过粗糙训练的大模型。

📏 类比的边界

⚠️接龙游戏的玩家知道故事的意思,但 LLM 是否"知道意思"是一个开放的哲学问题。
⚠️学霸考完试会忘记内容,但 LLM 的知识固定在参数里——它不会"忘记"训练数据中的模式(但也不会学习新知识,除非重新训练)。

🔗 相关概念

✅ 秒测

1LLM 的核心能力是什么?
A. 理解语言的含义
B. 根据上文预测最合理的下一个词
2为什么 LLM 有时会一本正经地编造错误信息?
A. 它故意骗你
B. 它不区分对错,只选"最可能的下一个词"
3"涌现能力"是什么意思?
A. 程序员专门编程让 AI 会推理、会翻译
B. 模型大到一定规模后,自动出现了训练目标中没有的能力

手机端可长按图片保存到相册