有些能力在小模型身上几乎看不见,可一到更大规模,大家会突然惊呼:它居然会了
这类“像跨过一道门槛才出现”的现象,就常被叫做 涌现能力
但关键是:它到底是真的突然出现,还是评测方法把平滑进步看成了跳变?
↓ 往下看,4 分钟搞懂

✨ 涌现能力

Emergent Ability

不是突然觉醒,而是跨过了可见门槛。
🧒 极简版 🧑 场景版 🎓 精准版

🗺️ 概念坐标:先知道它在哪

涌现能力不只是“模型变强”,而是“有些能力看起来像过了某个点才冒出来”。

📈 缩放定律
背景趋势
缩放定律告诉你模型整体会怎样平滑变强;涌现能力更像在某些任务上看到的局部“突然有了”。
✨ 涌现能力 ★
本概念
它指的是:某些任务能力在小模型几乎不可见,到更大模型后才变得明显可用,看起来像突然出现。
📏 评测指标 / 门槛
关键解释
研究争论的核心之一,是“突然跳出来”的感觉,可能部分来自通过/不通过这类不连续指标,而不一定是真正的硬跃迁。
🧪 BIG-Bench / CoT
典型语境
涌现能力常在复杂任务、few-shot、链式思维或大 benchmark 里被提到,是大模型讨论里很常见的词。

🧪 动手试试:为什么“平滑变强”会看起来像“突然会了”

拖动“模型规模”,看底层能力分和平滑变化,再看“通过阈值”这个不连续指标,会不会突然从 0 跳到 1。

模型规模
6 / 10
蓝线表示底层能力平滑上升;紫色标签表示“任务通过/没通过”的门槛结果。

📦 拆开看:涌现能力由什么组成

点卡片翻面,把“突然会了”这件事拆成几个真正影响你观察结果的部件。

📈
底层能力
点我翻转
模型的真实能力往往是逐步变强的,不一定真的像开关一样“啪”地出现。
🚪
任务门槛
点我翻转
很多任务不是看你进步了多少,而是看你“过没过线”。一旦跨线,看起来就像能力突然冒出来。
📏
评测方式
点我翻转
如果指标是离散的、通过/不通过式的,它更容易把平滑进步放大成“跳变”。
🧩
提示与任务设计
点我翻转
同一个模型在不同提示词、不同 benchmark 下,涌现现象可能出现得更早、更晚,甚至看起来完全不一样。

⚙️ 它是怎么发生的

“涌现”不是一个按钮,它更像是“能力曲线”和“观察方式”一起作用后的结果。

1

模型规模慢慢变大

随着参数、数据和算力增加,模型在不少底层能力上会持续、平滑地提升。

2

复杂任务需要跨过某个门槛

像多步推理、复杂组合或更长链条操作,常常不是“稍微会一点就算会”,而是要过某条线才明显可用。

3

一过线,评测结果突然好看

如果 benchmark 只看是否达标,你会在图上看到从接近 0 一下跳到可用区间。

4

人们把这种现象叫作“涌现”

于是会觉得模型像突然学会了某个能力,而不是慢慢变强。

5

争论点在于:这是能力跃迁,还是指标错觉?

部分论文强调真实涌现,另一些论文则提醒:很多“跳变”可能主要来自不连续评测指标。

🆚 误解它之前 vs 理解它之后

“涌现”最容易被误听成“模型突然觉醒”,但研究里真正争论的重点没那么玄。

Before

如果把涌现能力理解成“模型突然有了新灵魂”,你会把很多本来可以解释为平滑增长、指标门槛或提示词变化的现象神秘化。

After

理解涌现能力后,你会更具体地问:底层能力是不是一直在涨?任务是不是有阈值?评测方式是不是把连续变化看成了跳变?

⚠️ 常见误解

“涌现”这个词很抓人,但也最容易被用过头。

涌现能力就是模型突然有了意识。
不是。这里讨论的是任务表现的变化,不是意识、主观体验或自我觉醒。
只要模型变大,所有新能力都一定是“涌现”的。
不是。有些能力确实看起来像跨门槛出现,但也有很多能力只是平滑变强。
研究界已经完全证明:涌现能力一定是客观硬跃迁。
并没有。部分工作支持“显著跳变”,也有工作指出不少现象可能主要来自指标和评测方式。

🧱 类比边界

把涌现能力比成“过门槛突然会了”很好懂,但要小心别比过头。

🔗 相关概念

顺着这些概念看,涌现能力会更立体。

✅ 秒测

答完这 3 题,基本就能分清“突然会了”与“看起来突然会了”。

1涌现能力这个词最常在描述什么?
2为什么研究者会怀疑部分“涌现”是错觉?
3下面哪句最接近研究界的谨慎说法?

手机端可长按上方图片保存到相册