训练 GPT-4 用了 25,000 块 GPU,花了 1 亿美元电费
为什么不用更便宜的 CPU?
因为同样的任务,CPU 要算到下个世纪
↓ 往下看,3 分钟搞懂
🤖 AI

GPU vs CPU

图形处理器 vs 中央处理器

CPU 是博士生,什么都会但一次只做一件。GPU 是一万个小学生,只会加减乘除但一起算。
🧒 极简版🧑 场景版🎓 精准版

🧒 极简版:博士生 vs 一万个小学生

想象你要批改 10,000 张加减法试卷。

CPU 就像一个博士生——他什么都会,微积分、量子力学、写论文都行。但他一次只能改一张试卷。10,000 张要改整整一个月。

GPU 就像一万个小学生——他们只会加减乘除,但每人拿一张,同时开改。10,000 张试卷?10 秒搞定。

AI 训练的本质就是做海量加减乘除(矩阵运算),所以 GPU 碾压 CPU。

🧑 场景版:大厨 vs 快餐流水线

开一家餐厅,你有两个选择:

CPU = 米其林大厨
· 一个人能做法餐、日料、中餐——技艺全面
· 每道菜精雕细琢,味道一流
· 但高峰期 500 单?一个人做到明天早上

GPU = 麦当劳流水线
· 1000 个工位,每人只会放一片菜叶 / 挤一条酱
· 单个操作简单到无聊
· 但 500 单同时开工,10 分钟全部出餐

AI 训练就像高峰期的 500 单——不需要花式技巧,需要的是同时处理的能力。所以 GPU 赢了。

🎓 精准版:串行架构 vs 并行架构

CPU(Central Processing Unit)
· 4-64 个核心,每个核心有完整的 ALU、控制单元、大容量缓存
· 时钟频率高(4-6 GHz),单线程性能强
· 擅长分支预测、乱序执行等复杂逻辑
· 适合:操作系统调度、数据库查询、通用逻辑

GPU(Graphics Processing Unit)
· 数千至上万个 CUDA/Tensor 核心,每个核心结构简单
· 时钟频率低(1-2 GHz),但核心数量碾压
· SIMT 架构:Single Instruction, Multiple Threads
· 适合:矩阵乘法、卷积运算、大规模并行数据处理

为什么 AI 选 GPU?
神经网络的前向传播和反向传播本质上是大量矩阵乘法(GEMM)。一次训练迭代涉及数十亿次浮点运算,天然适合 GPU 的 SIMT 并行架构。NVIDIA A100 GPU 的 FP16 算力达 312 TFLOPS,而顶级 CPU 仅约 1-2 TFLOPS。

⚔️ 正面对决:CPU vs GPU

一张图看清两者的根本差异

🧠 CPU

  • 核心数:4-64 个(强壮的大核心)
  • 时钟频率:4-6 GHz(单个很快)
  • 内存:DDR5,容量大但带宽较低
  • 擅长:复杂逻辑、分支判断、单线程任务
  • 类比:博士生 / 米其林大厨
  • AI 角色:数据预处理、调度指挥

🚀 GPU

  • 核心数:数千至上万个(简单小核心)
  • 时钟频率:1-2 GHz(单个较慢)
  • 内存:HBM,容量小但带宽极高
  • 擅长:大量重复计算、矩阵运算、并行处理
  • 类比:一万个小学生 / 快餐流水线
  • AI 角色:训练和推理的主力军

🧪 动手试试:CPU vs GPU 竞速

看看相同任务量下,串行和并行的速度差距有多大

任务数: 100
🧠 CPU(逐个处理)串行0 / 100
🚀 GPU(并行处理)并行0 / 100
🧠 CPU 用时
-
🚀 GPU 用时
-
⚡ 速度差距
-
💡 为什么差这么多?
· CPU 一次处理 1 个任务(串行),100 个任务要执行 100 次
· GPU 一次并行处理 32 个任务(模拟),100 个任务只需 4 轮
· 真实 GPU 有数千核心,并行度远不止 32,差距更惊人
· 试试拖动滑块增加任务数到 200,感受差距如何放大!

📦 拆开看

点击卡片翻转,对比关键参数

🔢核心数点我翻转 ↻
CPU:4-64 个核心,每个都是"全能选手"
GPU:数千至上万核心,每个只做简单运算

NVIDIA H100 有 16,896 个 CUDA 核心📊 少而精 vs 多而简
⏱️时钟频率点我翻转 ↻
CPU:4-6 GHz,单核速度快
GPU:1-2 GHz,单核较慢但数量碾压

频率 × 核心数 = 总算力,GPU 靠量取胜🏃 短跑冠军 vs 万人接力
💾内存带宽点我翻转 ↻
CPU 内存:DDR5,带宽约 100 GB/s
GPU 显存:HBM3,带宽可达 3,350 GB/s

AI 训练需要高速搬运海量数据,GPU 的内存带宽是 CPU 的 30 倍+🛣️ 乡间小路 vs 30车道高速
🎯适用场景点我翻转 ↻
CPU 擅长:操作系统、网页浏览、编程、数据库——需要复杂判断的任务

GPU 擅长:AI 训练/推理、3D 渲染、视频编解码、科学计算——需要大量重复运算的任务🎭 通才 vs 专才

⚠️ 别搞混

❌ 很多人以为
GPU 比 CPU 快,所以应该把 CPU 全换成 GPU。
✅ 其实是
GPU 只在并行计算上快。打开网页、运行程序、处理分支逻辑这些日常任务,CPU 反而更快更合适。两者是互补关系,不是替代关系。
❌ 很多人以为
显卡越贵,AI 就跑得越快——买最贵的游戏显卡就行。
✅ 其实是
AI 需要的是计算卡(如 NVIDIA A100/H100),不是游戏卡(如 RTX 4090)。计算卡有更大显存(80GB vs 24GB)、更高精度和专用 Tensor 核心,价格也是游戏卡的 10 倍+。
❌ 很多人以为
CPU 在 AI 领域完全没用了。
✅ 其实是
CPU 负责数据预处理、任务调度、I/O 操作等。AI 系统是 CPU + GPU 协同工作——CPU 当总指挥,GPU 当主力军。没有 CPU 的调度,GPU 也跑不起来。

📏 类比的边界

⚠️博士生也能同时想多件事(CPU 也支持多线程),但并行度远不如小学生方阵(GPU 数千核心并行)。
⚠️小学生不是真的只会加减乘除——GPU 核心也能做浮点运算、矩阵变换等,只是每个核心的逻辑处理能力确实比 CPU 弱很多。
⚠️快餐流水线的比喻忽略了一个关键因素:GPU 核心之间需要共享内存和同步数据,不像流水线工人那样完全独立。

🔗 相关概念

✅ 秒测

1训练大型 AI 模型为什么用 GPU 而不是 CPU?
A. 因为 GPU 的时钟频率比 CPU 高
B. 因为 AI 训练本质是大量矩阵运算,GPU 的数千核心可以并行处理
2以下哪个任务更适合 CPU 而不是 GPU?
A. 同时处理 10 万张图片的像素计算
B. 运行一个需要复杂条件判断的数据库查询
3一块 NVIDIA H100 GPU 有约 16,000 个核心,一颗顶级 CPU 有 64 个核心。为什么不能简单地用 250 颗 CPU(250×64=16,000 核心)来替代?
A. 其实可以,只是成本更高
B. GPU 核心之间共享超高速显存,数据搬运极快;CPU 之间通过网络通信,延迟高出几个数量级

手机端可长按图片保存到相册