🧒 极简版:博士生 vs 一万个小学生
想象你要批改 10,000 张加减法试卷。
CPU 就像一个博士生——他什么都会,微积分、量子力学、写论文都行。但他一次只能改一张试卷。10,000 张要改整整一个月。
GPU 就像一万个小学生——他们只会加减乘除,但每人拿一张,同时开改。10,000 张试卷?10 秒搞定。
AI 训练的本质就是做海量加减乘除(矩阵运算),所以 GPU 碾压 CPU。
🧑 场景版:大厨 vs 快餐流水线
开一家餐厅,你有两个选择:
CPU = 米其林大厨
· 一个人能做法餐、日料、中餐——技艺全面
· 每道菜精雕细琢,味道一流
· 但高峰期 500 单?一个人做到明天早上
GPU = 麦当劳流水线
· 1000 个工位,每人只会放一片菜叶 / 挤一条酱
· 单个操作简单到无聊
· 但 500 单同时开工,10 分钟全部出餐
AI 训练就像高峰期的 500 单——不需要花式技巧,需要的是同时处理的能力。所以 GPU 赢了。
🎓 精准版:串行架构 vs 并行架构
CPU(Central Processing Unit)
· 4-64 个核心,每个核心有完整的 ALU、控制单元、大容量缓存
· 时钟频率高(4-6 GHz),单线程性能强
· 擅长分支预测、乱序执行等复杂逻辑
· 适合:操作系统调度、数据库查询、通用逻辑
GPU(Graphics Processing Unit)
· 数千至上万个 CUDA/Tensor 核心,每个核心结构简单
· 时钟频率低(1-2 GHz),但核心数量碾压
· SIMT 架构:Single Instruction, Multiple Threads
· 适合:矩阵乘法、卷积运算、大规模并行数据处理
为什么 AI 选 GPU?
神经网络的前向传播和反向传播本质上是大量矩阵乘法(GEMM)。一次训练迭代涉及数十亿次浮点运算,天然适合 GPU 的 SIMT 并行架构。NVIDIA A100 GPU 的 FP16 算力达 312 TFLOPS,而顶级 CPU 仅约 1-2 TFLOPS。