DeepSeek-R1: 通过 Reinforcement Learning 激发 LLM 的 Reasoning 能力

元数据（Metadata）

阅读状态：read complete
年份：2025
计算范式：Inference-time compute and post-training (inference_time_compute_post_training)
PDF：2025-deepseek_r1_2025.pdf
提取文本：2025-deepseek_r1_2025.txt
PDF URL：https://arxiv.org/pdf/2501.12948.pdf
OpenAlex：
引用次数来源/日期：Frontier provisional 2026-06-15
引用次数：
阅读卡片创建日期：2026-06-15

计算设置（Compute Setup）

DeepSeek-R1 基于 DeepSeek-V3-Base 构建，后者是一个 MoE 模型，总参数 671B，每个 token 激活 37B 参数。论文报告了 reasoning 运行的明确硬件：较小的 30B 实验使用 A100 GPU；660B 规模的 DeepSeek-R1-Zero 和 DeepSeek-R1 运行使用了 64 × 8 H800 GPU，即 512 个 GPU。R1-Zero 耗时约 198 小时，R1 耗时约 80 小时，SFT 数据创建使用了 5K H800 GPU-小时。表 7 报告了 R1-Zero 101K H800 GPU-小时、R1 41K、SFT 数据创建 5K，总计 147K H800 GPU-小时。

计算设备不仅是 H800 集群，更是一个 long-CoT RL 工厂。rollout worker 使用 vLLM 配合 actor 模型，inference 模块加载 reference 模型和 reward 模型，一个基于规则的 reward 模块运行答案匹配、格式检查和代码执行，training 模块更新 actor。基础设施适应 GPU 显存压力：模型实例在各阶段之间从 VRAM 卸载，rollout 解码使用 expert parallelism、冗余 hot expert 和 MTP self-speculative decoding，训练使用按长度排序的 packing 加上 DualPipe pipeline parallelism。

瓶颈（Bottleneck）

核心瓶颈在于，将前沿 pretrained 模型转变为可靠的 long-reasoning policy，而不依赖大规模人工编写的 reasoning trace。论文认为，传统的 SFT 可能限制 exploration，因为人类示范可能遗漏 reflection、verification 和非人类解题路径。RL 可以探索，但 long-CoT RL 产生了不同的系统性问题：每个 prompt 可能生成 16 条非常长的 response，reward 评估可能很慢，且模型和 reference 必须保持足够接近以维持可训练性。

PPO 风格的 RL 在此规模下也变得繁琐。选择 GRPO 是因为它避免了单独的 value model，减少了显存和计算开销。长输出使得 padding 浪费、VRAM 驻留、reference 模型刷新和 rollout 延迟成为一级瓶颈。可靠的 reward 是另一个约束：基于规则的 verifier 适用于数学、代码、STEM 和逻辑，而基于模型的 reward 更容易遭受 reward hacking。

方法适配（Method Adaptation）

DeepSeek-R1-Zero 是最干净的计算适配。从 DeepSeek-V3-Base 出发，跳过 SFT，使用 GRPO 配合基于规则的 reward。对于每个问题，GRPO 采样 16 个输出并在组内计算相对 advantage。R1-Zero 使用学习率 3e-6、KL 系数 0.001、rollout temperature 1、每步 32 个不同问题、batch size 512 个输出。最大输出长度在 step 8.2K 之前为 32,768 tokens，之后为 65,536 tokens；训练运行 10,400 步，即 1.6 个 epoch。每次 rollout 产生 8,192 个输出，分为 16 个 minibatch 进行一个 inner epoch，reference 模型每 400 步替换一次。

DeepSeek-R1 将这个原始 reasoning policy 适配为可读且适合产品使用。pipeline 增加了数千个 cold-start long-CoT 示例、第一个 RL 阶段（加入语言一致性 reward）、从第一阶段 checkpoint 进行 rejection sampling、约 600K reasoning SFT 样本、约 200K non-reasoning SFT 样本，以及第二个 RL 阶段混合了规则 reward、偏好 reward 和语言 reward。第二个 RL 阶段将 rollout temperature 降至 0.7，因为更高的 temperature 导致生成不连贯，并将通用偏好 reward 训练限制在 1,700 步中的最后 400 步，以减少 reward hacking。

证据（Evidence）

训练曲线是核心证据。DeepSeek-R1-Zero 在 RL 过程中，AIME 2024 pass@1 从 15.6% 上升到 77.9%，self-consistency decoding 将其提升至 86.7%。论文报告思考时间在整个训练过程中增加，反思行为（包括"wait"）变得更加常见；附录 C.2 指出代表性反思词汇增加了 5 到 7 倍。

表 3 展示了最终 R1 在 reasoning 与 instruction following 之间的平衡：AIME 2024 pass@1 达到 79.8，MATH-500 97.3，LiveCodeBench 65.9，Codeforces 96.3 百分位（rating 2029），SWE-Bench Verified 49.2，IF-Eval 83.3，AlpacaEval 2.0 87.6，ArenaHard 92.3。同一张表也说明了分阶段 pipeline 的重要性：R1-Zero 在数学上很强但在 instruction following 上较弱，而最终 R1 在混合 SFT 和 RL 后改善了通用用户偏好 benchmark。

评估设置也是计算导向的。DeepSeek-R1 输出在每个 benchmark 上限制为 32,768 tokens。论文通过 n-gram 过滤对 pretraining 和 post-training 数据进行了去污染，移除了约六百万条潜在数学 pretraining 文本，并从 2023 年前的竞赛中获取数学 SFT/RL prompt。

历史影响（Historical Effect）

DeepSeek-R1 使 long-CoT RL 成为一个公开的、开放权重的 scaling 维度。早期的 inference-time reasoning 方法主要花费更多解码样本，或将 frozen 模型包装在搜索中。R1 展示了一个 pretrained MoE 模型可以通过 post-training 使 policy 本身在难题上动态消耗更多 token，并学习 reflection 和 self-verification 行为。

从历史角度看，该论文也使 reasoning 模型的系统成本变得可见：长输出、verifier 延迟、reward 设计、expert-parallel rollout、模型卸载和 GPU-小时预算都是方法的一部分。GRPO 变得重要，因为它比依赖 value model 的 PPO pipeline 更好地匹配了 H800 规模的 long-CoT RL 的显存和 rollout 结构。

局限性（Limits）

论文对剩余瓶颈直言不讳。DeepSeek-R1 在结构化输出和工具使用方面弱于某些现有模型，且无法使用搜索引擎或计算器。它仍然在简单问题上过度思考，因此 token 效率仍然是开放问题。它主要为中文和英文优化，在其他语言中可能混合语言。它对 prompt 敏感，few-shot prompting 在评估中降低性能。软件工程的 RL 受限于评估时间过长，因此大规模 RL 未广泛应用于该领域。最后，纯 RL 依赖于可靠的 reward；基于规则的 reward 适用于可验证任务，但基于模型的 reward 可能被 hack。

链接（Links）

计算范式：inference-time compute and post-training
源 PDF 和提取文本见上方元数据。
Queue 状态：read_complete。
方法索引：inference_time_reasoning、rlhf、distillation、moe
Ledger 更新：compute bottlenecks

规范英文卡片：deepseek_r1_2025.md

规则：

本文件为 GLM 辅助验证副本。
不得添加英文卡片中不存在的声明。
任何翻译争议请在此记录，并先在英文版本中解决。