缩放定律 · Aha! 秒懂

📈

很多人以为大模型变强像“突然开悟”。但早期研究发现，很多提升其实像一条有规律的曲线：参数、数据、算力越大，损失通常会按可预测的方式下降。
这条“越做越大，效果怎么变”的经验规律，就叫 缩放定律。

↓ 往下看，4 分钟搞懂

🗺️ 概念坐标：先知道它在哪

缩放定律讨论的不是“某个模型强不强”，而是“大模型整体怎么随着规模变化而变强”。

🎯 损失函数

观测指标

最早的缩放定律主要研究的是损失如何随参数、数据和算力变化。损失越低，通常意味着模型学得更好。

📈 缩放定律 ★

本概念

它描述的是：当模型、数据、算力一起变大时，性能往往不是乱跳，而是沿着相对稳定的幂律趋势改善。

🧮 Chinchilla 配比

下游推论

后续研究把问题推进到“怎么最划算地变大”，指出不是只堆参数，而是参数和训练 token 要一起配平。

✨ 涌现能力

🧪 动手试试：规模变大时会发生什么

拖动“规模等级”，看能力分和损失如何变化。你会发现：变强通常是持续的，但边际收益会越来越贵。

规模等级

6 / 10

拖动滑块：注意“性能持续变好”和“边际收益递减”会同时出现。

📦 拆开看：缩放定律由什么组成

点卡片翻面，把“大模型为什么会按规律变强”拆成几个关键变量。

🧠

参数量

点我翻转

参数越多，模型通常能容纳更复杂的模式。但“更大”不等于“只堆参数”，还得看数据和训练预算是否跟上。

📚

数据量

点我翻转

如果模型变大了，但数据没有同步变多，模型容易“没吃饱”。后续研究强调：训练 token 也必须一起扩。

⚡

算力预算

点我翻转

缩放定律不仅回答“变大有用吗”，还回答“在固定算力下，参数和数据怎么配更划算”。

📉

损失曲线

点我翻转

最核心的观察是：损失通常按幂律下降，不是乱跳。也正因为这样，人们才敢预测“再做大一点，大概还能变好多少”。

⚙️ 它是怎么工作的

缩放定律不是某个按钮，而是一张“扩大规模时整体表现会怎么变”的地图。

先设定预算

你先决定能花多少训练算力，这决定了“能做多大、能训多久”。

↓

一起放大参数和数据

不是只加一个维度。模型规模、训练数据、训练步数通常要协同变化，才能吃到真正收益。

↓

损失按规律下降

当规模增加时，损失通常沿着平滑的幂律趋势往下掉，这就是“定律”名字的来源。

↓

收益继续有，但没那么便宜

每次继续变大，通常仍然有提升，但为了同样的一点进步，后面付出的代价会越来越高。

↓

用它来做规划而不是迷信

团队会用缩放定律估算“值不值得继续堆规模”，而不是闭眼赌一个更大的模型一定更神。

🆚 没有它之前 vs 有了它之后

缩放定律最有价值的地方，不是“证明大模型有效”，而是让做模型的人不再纯靠感觉烧钱。

Before

如果没有缩放定律，团队只能用“感觉”去决定到底该加参数、加数据，还是多买算力。模型一旦很贵，这种拍脑袋就会非常浪费。

After

有了缩放定律后，你至少能知道：继续变大大概率还会变好，大概会好多少，以及参数和数据应该怎样搭配才更算力友好。

⚠️ 常见误解

很多人一提缩放定律，就会把它误听成“只要越大就越神”。这其实说过头了。

❌缩放定律就是说：只要一直加参数，模型一定无限变强。

✅不是。它说的是在特定模型家族和指标下，能力常常会按可预测趋势改善，不是保证没有上限。

❌缩放定律只看参数量，数据不重要。

✅恰恰相反。后续研究的重要结论之一，就是数据量和参数量都得扩，而且配比很关键。

❌既然有定律，那提升应该是线性的、稳定翻倍的。

✅不是线性，而更像幂律：持续有收益，但越往后同样的一点进步越贵。

🧱 类比边界

把缩放定律比成“投入越多越有规律地变好”很直观，但还是有边界。

1.缩放定律是经验规律，不是像牛顿定律那样在任何模型、任何任务、任何时代都严格不变。
2.它最早主要针对损失和语言模型家族说话，不能简单外推成“所有 AI 能力都按同一条线增长”。
3.它说明“变大通常有用”，但不保证“只靠变大就够了”。数据质量、后训练、工具使用和系统设计也会决定最终效果。

✅ 秒测

答完这 3 题，你基本就能分清“更大”与“更划算地变大”。

1缩放定律最核心在描述什么？

2后续研究对缩放定律的重要补充是什么？

3下面哪句最符合缩放定律？

📈 缩放定律

🗺️ 概念坐标：先知道它在哪

🧪 动手试试：规模变大时会发生什么

📦 拆开看：缩放定律由什么组成

⚙️ 它是怎么工作的

先设定预算

一起放大参数和数据

损失按规律下降

收益继续有，但没那么便宜

用它来做规划而不是迷信

🆚 没有它之前 vs 有了它之后

⚠️ 常见误解

🧱 类比边界

🔗 相关概念

✅ 秒测

📤 分享海报