📝 展开文字版内容(供搜索引擎索引)
📈 缩放定律
一句话类比:像种地:地更大、种子更多、照料更足,收成通常会更好,而且这种变好不是乱跳,是有规律的。
大白话说:缩放定律描述的是大模型随着参数量、数据量和训练算力增加时,损失和部分能力如何按相对稳定的幂律趋势变化。它的意义不只是说明“更大通常更强”,还帮助研究者在固定预算下判断:该加多少参数、该喂多少数据、继续放大是否划算。
拆开看:
- 参数量:模型能装下多少模式和关系
- 数据量:模型有多少训练样本可以吸收
- 算力预算:训练时能花多少计算资源
- 损失曲线:衡量模型随规模变化是否按规律变好
常见误解:
❌ 缩放定律就是说只要一直加参数,模型一定无限变强 → ✅ 它是经验规律,不是无限承诺,而且参数、数据、算力要一起看
❌ 数据量不重要,只有参数量最关键 → ✅ 后续研究的重要结论之一恰恰是参数和训练 token 的配比很关键
❌ 缩放定律意味着性能线性翻倍 → ✅ 它更像幂律:持续有收益,但后面的收益越来越贵
类比的边界:
- 缩放定律是经验规律,不是所有模型和所有任务都严格服从的一条硬物理定律
- 它最早主要针对语言模型损失和特定任务表现,不等于所有 AI 能力都按同一条线增长
- 它说明“做大通常有用”,但不保证“只靠做大就够了”