📈
很多人以为大模型变强像“突然开悟”。但早期研究发现,很多提升其实像一条有规律的曲线:参数、数据、算力越大,损失通常会按可预测的方式下降。
这条“越做越大,效果怎么变”的经验规律,就叫 缩放定律
↓ 往下看,4 分钟搞懂

📈 缩放定律

Scaling Law

大模型变强,不只是更大,而是按规律更大。
🧒 极简版 🧑 场景版 🎓 精准版

🗺️ 概念坐标:先知道它在哪

缩放定律讨论的不是“某个模型强不强”,而是“大模型整体怎么随着规模变化而变强”。

🎯 损失函数
观测指标
最早的缩放定律主要研究的是损失如何随参数、数据和算力变化。损失越低,通常意味着模型学得更好。
📈 缩放定律 ★
本概念
它描述的是:当模型、数据、算力一起变大时,性能往往不是乱跳,而是沿着相对稳定的幂律趋势改善。
🧮 Chinchilla 配比
下游推论
后续研究把问题推进到“怎么最划算地变大”,指出不是只堆参数,而是参数和训练 token 要一起配平。
✨ 涌现能力
相关现象
缩放定律更像整体趋势图;涌现能力更像局部出现的“突然会了”。两者常一起讨论,但不是一个东西。

🧪 动手试试:规模变大时会发生什么

拖动“规模等级”,看能力分和损失如何变化。你会发现:变强通常是持续的,但边际收益会越来越贵。

规模等级
6 / 10
拖动滑块:注意“性能持续变好”和“边际收益递减”会同时出现。

📦 拆开看:缩放定律由什么组成

点卡片翻面,把“大模型为什么会按规律变强”拆成几个关键变量。

🧠
参数量
点我翻转
参数越多,模型通常能容纳更复杂的模式。但“更大”不等于“只堆参数”,还得看数据和训练预算是否跟上。
📚
数据量
点我翻转
如果模型变大了,但数据没有同步变多,模型容易“没吃饱”。后续研究强调:训练 token 也必须一起扩。
算力预算
点我翻转
缩放定律不仅回答“变大有用吗”,还回答“在固定算力下,参数和数据怎么配更划算”。
📉
损失曲线
点我翻转
最核心的观察是:损失通常按幂律下降,不是乱跳。也正因为这样,人们才敢预测“再做大一点,大概还能变好多少”。

⚙️ 它是怎么工作的

缩放定律不是某个按钮,而是一张“扩大规模时整体表现会怎么变”的地图。

1

先设定预算

你先决定能花多少训练算力,这决定了“能做多大、能训多久”。

2

一起放大参数和数据

不是只加一个维度。模型规模、训练数据、训练步数通常要协同变化,才能吃到真正收益。

3

损失按规律下降

当规模增加时,损失通常沿着平滑的幂律趋势往下掉,这就是“定律”名字的来源。

4

收益继续有,但没那么便宜

每次继续变大,通常仍然有提升,但为了同样的一点进步,后面付出的代价会越来越高。

5

用它来做规划而不是迷信

团队会用缩放定律估算“值不值得继续堆规模”,而不是闭眼赌一个更大的模型一定更神。

🆚 没有它之前 vs 有了它之后

缩放定律最有价值的地方,不是“证明大模型有效”,而是让做模型的人不再纯靠感觉烧钱。

Before

如果没有缩放定律,团队只能用“感觉”去决定到底该加参数、加数据,还是多买算力。模型一旦很贵,这种拍脑袋就会非常浪费。

After

有了缩放定律后,你至少能知道:继续变大大概率还会变好,大概会好多少,以及参数和数据应该怎样搭配才更算力友好。

⚠️ 常见误解

很多人一提缩放定律,就会把它误听成“只要越大就越神”。这其实说过头了。

缩放定律就是说:只要一直加参数,模型一定无限变强。
不是。它说的是在特定模型家族和指标下,能力常常会按可预测趋势改善,不是保证没有上限。
缩放定律只看参数量,数据不重要。
恰恰相反。后续研究的重要结论之一,就是数据量和参数量都得扩,而且配比很关键。
既然有定律,那提升应该是线性的、稳定翻倍的。
不是线性,而更像幂律:持续有收益,但越往后同样的一点进步越贵。

🧱 类比边界

把缩放定律比成“投入越多越有规律地变好”很直观,但还是有边界。

🔗 相关概念

顺着这些概念看,缩放定律会更立体。

✅ 秒测

答完这 3 题,你基本就能分清“更大”与“更划算地变大”。

1缩放定律最核心在描述什么?
2后续研究对缩放定律的重要补充是什么?
3下面哪句最符合缩放定律?

手机端可长按上方图片保存到相册