缩放定律 — Aha! 秒懂

Aha!AI 驱动的可视化概念百科

📋 概念库 📖 图鉴 🌌 星云图缘起 👑 Pro

📝 展开文字版内容（供搜索引擎索引）

📈 缩放定律

一句话类比：像种地：地更大、种子更多、照料更足，收成通常会更好，而且这种变好不是乱跳，是有规律的。

大白话说：缩放定律描述的是大模型随着参数量、数据量和训练算力增加时，损失和部分能力如何按相对稳定的幂律趋势变化。它的意义不只是说明“更大通常更强”，还帮助研究者在固定预算下判断：该加多少参数、该喂多少数据、继续放大是否划算。

拆开看：

参数量：模型能装下多少模式和关系
数据量：模型有多少训练样本可以吸收
算力预算：训练时能花多少计算资源
损失曲线：衡量模型随规模变化是否按规律变好

常见误解：

❌ 缩放定律就是说只要一直加参数，模型一定无限变强 → ✅ 它是经验规律，不是无限承诺，而且参数、数据、算力要一起看

❌ 数据量不重要，只有参数量最关键 → ✅ 后续研究的重要结论之一恰恰是参数和训练 token 的配比很关键

❌ 缩放定律意味着性能线性翻倍 → ✅ 它更像幂律：持续有收益，但后面的收益越来越贵

类比的边界：

缩放定律是经验规律，不是所有模型和所有任务都严格服从的一条硬物理定律
它最早主要针对语言模型损失和特定任务表现，不等于所有 AI 能力都按同一条线增长
它说明“做大通常有用”，但不保证“只靠做大就够了”

🏠首页 📋概念库 📖图鉴 🌌星图 📚我的