📝 展开文字版内容(供搜索引擎索引)
📚 过拟合
一句话类比:像学生把题库答案全背下来了:原题很强,稍微换个问法就不会。
大白话说:过拟合是机器学习里最常见的泛化问题之一:模型在训练数据上表现很好,但在新数据上表现变差。其根本原因通常是模型复杂度过高、训练过久、数据太少或噪声太多,导致模型把训练集里的偶然细节也学成了“规律”。
拆开看:
- 训练集:模型反复学习的旧题库
- 验证集:判断模型是不是只会做旧题的体检工具
- 模型复杂度:自由度越高,越可能同时学到规律和噪声
- 数据噪声:标注误差和偶然波动最容易被过拟合记住
常见误解:
❌ 训练集准确率越高,模型就一定越强 → ✅ 不一定,高训练分数可能只是说明模型把旧题背得很熟
❌ 只有深度学习才会过拟合 → ✅ 任何有自由度的模型都可能过拟合
❌ 解决过拟合只能靠缩小模型 → ✅ 更多数据、正则化、早停和数据增强都很有效
类比的边界:
- 学生背题是有意识行为,模型过拟合是训练过程自动产生的
- 考试换题和真实数据分布变化并不完全一样
- 模型里的“学规律”和“记噪声”往往混在一起发生