Scaling Law
缩放定律讨论的不是“某个模型强不强”,而是“大模型整体怎么随着规模变化而变强”。
拖动“规模等级”,看能力分和损失如何变化。你会发现:变强通常是持续的,但边际收益会越来越贵。
点卡片翻面,把“大模型为什么会按规律变强”拆成几个关键变量。
缩放定律不是某个按钮,而是一张“扩大规模时整体表现会怎么变”的地图。
你先决定能花多少训练算力,这决定了“能做多大、能训多久”。
不是只加一个维度。模型规模、训练数据、训练步数通常要协同变化,才能吃到真正收益。
当规模增加时,损失通常沿着平滑的幂律趋势往下掉,这就是“定律”名字的来源。
每次继续变大,通常仍然有提升,但为了同样的一点进步,后面付出的代价会越来越高。
团队会用缩放定律估算“值不值得继续堆规模”,而不是闭眼赌一个更大的模型一定更神。
缩放定律最有价值的地方,不是“证明大模型有效”,而是让做模型的人不再纯靠感觉烧钱。
如果没有缩放定律,团队只能用“感觉”去决定到底该加参数、加数据,还是多买算力。模型一旦很贵,这种拍脑袋就会非常浪费。
有了缩放定律后,你至少能知道:继续变大大概率还会变好,大概会好多少,以及参数和数据应该怎样搭配才更算力友好。
很多人一提缩放定律,就会把它误听成“只要越大就越神”。这其实说过头了。
把缩放定律比成“投入越多越有规律地变好”很直观,但还是有边界。
顺着这些概念看,缩放定律会更立体。
答完这 3 题,你基本就能分清“更大”与“更划算地变大”。