⚡

训练 GPT-4 用了 25,000 块 GPU，花了 1 亿美元电费。
为什么不用更便宜的 CPU？
因为同样的任务，CPU 要算到下个世纪。

↓ 往下看，3 分钟搞懂

🤖 AI

GPU vs CPU

图形处理器 vs 中央处理器

CPU 是博士生，什么都会但一次只做一件。GPU 是一万个小学生，只会加减乘除但一起算。

🎚️ 理解深度

🧒 极简版🧑 场景版🎓 精准版

🧒 极简版：博士生 vs 一万个小学生

想象你要批改 10,000 张加减法试卷。

CPU 就像一个博士生——他什么都会，微积分、量子力学、写论文都行。但他一次只能改一张试卷。10,000 张要改整整一个月。

GPU 就像一万个小学生——他们只会加减乘除，但每人拿一张，同时开改。10,000 张试卷？10 秒搞定。

AI 训练的本质就是做海量加减乘除（矩阵运算），所以 GPU 碾压 CPU。

🧑 场景版：大厨 vs 快餐流水线

开一家餐厅，你有两个选择：

CPU = 米其林大厨
· 一个人能做法餐、日料、中餐——技艺全面
· 每道菜精雕细琢，味道一流
· 但高峰期 500 单？一个人做到明天早上

GPU = 麦当劳流水线
· 1000 个工位，每人只会放一片菜叶 / 挤一条酱
· 单个操作简单到无聊
· 但 500 单同时开工，10 分钟全部出餐

AI 训练就像高峰期的 500 单——不需要花式技巧，需要的是同时处理的能力。所以 GPU 赢了。

🎓 精准版：串行架构 vs 并行架构

CPU（Central Processing Unit）
· 4-64 个核心，每个核心有完整的 ALU、控制单元、大容量缓存
· 时钟频率高（4-6 GHz），单线程性能强
· 擅长分支预测、乱序执行等复杂逻辑
· 适合：操作系统调度、数据库查询、通用逻辑

GPU（Graphics Processing Unit）
· 数千至上万个 CUDA/Tensor 核心，每个核心结构简单
· 时钟频率低（1-2 GHz），但核心数量碾压
· SIMT 架构：Single Instruction, Multiple Threads
· 适合：矩阵乘法、卷积运算、大规模并行数据处理

为什么 AI 选 GPU？
神经网络的前向传播和反向传播本质上是大量矩阵乘法（GEMM）。一次训练迭代涉及数十亿次浮点运算，天然适合 GPU 的 SIMT 并行架构。NVIDIA A100 GPU 的 FP16 算力达 312 TFLOPS，而顶级 CPU 仅约 1-2 TFLOPS。

⚔️ 正面对决：CPU vs GPU

一张图看清两者的根本差异

🧠 CPU

核心数：4-64 个（强壮的大核心）
时钟频率：4-6 GHz（单个很快）
内存：DDR5，容量大但带宽较低
擅长：复杂逻辑、分支判断、单线程任务
类比：博士生 / 米其林大厨
AI 角色：数据预处理、调度指挥

🚀 GPU

核心数：数千至上万个（简单小核心）
时钟频率：1-2 GHz（单个较慢）
内存：HBM，容量小但带宽极高
擅长：大量重复计算、矩阵运算、并行处理
类比：一万个小学生 / 快餐流水线
AI 角色：训练和推理的主力军

🧪 动手试试：CPU vs GPU 竞速

看看相同任务量下，串行和并行的速度差距有多大

任务数： 100 个

🧠 CPU（逐个处理）串行0 / 100

🚀 GPU（并行处理）并行0 / 100

🧠 CPU 用时

🚀 GPU 用时

⚡ 速度差距

💡 为什么差这么多？
· CPU 一次处理 1 个任务（串行），100 个任务要执行 100 次
· GPU 一次并行处理 32 个任务（模拟），100 个任务只需 4 轮
· 真实 GPU 有数千核心，并行度远不止 32，差距更惊人
· 试试拖动滑块增加任务数到 200，感受差距如何放大！

📦 拆开看

点击卡片翻转，对比关键参数

🔢核心数点我翻转 ↻

CPU：4-64 个核心，每个都是"全能选手"
GPU：数千至上万核心，每个只做简单运算

NVIDIA H100 有 16,896 个 CUDA 核心📊 少而精 vs 多而简

⏱️时钟频率点我翻转 ↻

CPU：4-6 GHz，单核速度快
GPU：1-2 GHz，单核较慢但数量碾压

频率 × 核心数 = 总算力，GPU 靠量取胜🏃 短跑冠军 vs 万人接力

💾内存带宽点我翻转 ↻

CPU 内存：DDR5，带宽约 100 GB/s
GPU 显存：HBM3，带宽可达 3,350 GB/s

AI 训练需要高速搬运海量数据，GPU 的内存带宽是 CPU 的 30 倍+🛣️ 乡间小路 vs 30车道高速

🎯适用场景点我翻转 ↻

CPU 擅长：操作系统、网页浏览、编程、数据库——需要复杂判断的任务

GPU 擅长：AI 训练/推理、3D 渲染、视频编解码、科学计算——需要大量重复运算的任务🎭 通才 vs 专才

⚠️ 别搞混

❌ 很多人以为

GPU 比 CPU 快，所以应该把 CPU 全换成 GPU。

✅ 其实是

GPU 只在并行计算上快。打开网页、运行程序、处理分支逻辑这些日常任务，CPU 反而更快更合适。两者是互补关系，不是替代关系。

❌ 很多人以为

显卡越贵，AI 就跑得越快——买最贵的游戏显卡就行。

✅ 其实是

AI 需要的是计算卡（如 NVIDIA A100/H100），不是游戏卡（如 RTX 4090）。计算卡有更大显存（80GB vs 24GB）、更高精度和专用 Tensor 核心，价格也是游戏卡的 10 倍+。

❌ 很多人以为

CPU 在 AI 领域完全没用了。

✅ 其实是

CPU 负责数据预处理、任务调度、I/O 操作等。AI 系统是 CPU + GPU 协同工作——CPU 当总指挥，GPU 当主力军。没有 CPU 的调度，GPU 也跑不起来。

📏 类比的边界

⚠️博士生也能同时想多件事（CPU 也支持多线程），但并行度远不如小学生方阵（GPU 数千核心并行）。

⚠️小学生不是真的只会加减乘除——GPU 核心也能做浮点运算、矩阵变换等，只是每个核心的逻辑处理能力确实比 CPU 弱很多。

⚠️快餐流水线的比喻忽略了一个关键因素：GPU 核心之间需要共享内存和同步数据，不像流水线工人那样完全独立。

🔗 相关概念

✅ 秒测

1训练大型 AI 模型为什么用 GPU 而不是 CPU？

A. 因为 GPU 的时钟频率比 CPU 高

B. 因为 AI 训练本质是大量矩阵运算，GPU 的数千核心可以并行处理

2以下哪个任务更适合 CPU 而不是 GPU？

A. 同时处理 10 万张图片的像素计算

B. 运行一个需要复杂条件判断的数据库查询

3一块 NVIDIA H100 GPU 有约 16,000 个核心，一颗顶级 CPU 有 64 个核心。为什么不能简单地用 250 颗 CPU（250×64=16,000 核心）来替代？

A. 其实可以，只是成本更高

B. GPU 核心之间共享超高速显存，数据搬运极快；CPU 之间通过网络通信，延迟高出几个数量级

手机端可长按图片保存到相册

GPU vs CPU

🧒 极简版：博士生 vs 一万个小学生

🧑 场景版：大厨 vs 快餐流水线

🎓 精准版：串行架构 vs 并行架构

⚔️ 正面对决：CPU vs GPU

🧠 CPU

🚀 GPU

🧪 动手试试：CPU vs GPU 竞速

📦 拆开看

⚠️ 别搞混

📏 类比的边界

🔗 相关概念

✅ 秒测

觉得有用？分享给朋友