DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

下载 PDF

DeepSeek-R1: 通过 Reinforcement Learning 激发 LLM 的 Reasoning 能力

元数据(Metadata)

计算设置(Compute Setup)

DeepSeek-R1 基于 DeepSeek-V3-Base 构建,后者是一个 MoE 模型,总参数 671B,每个 token 激活 37B 参数。论文报告了 reasoning 运行的明确硬件:较小的 30B 实验使用 A100 GPU;660B 规模的 DeepSeek-R1-Zero 和 DeepSeek-R1 运行使用了 64 × 8 H800 GPU,即 512 个 GPU。R1-Zero 耗时约 198 小时,R1 耗时约 80 小时,SFT 数据创建使用了 5K H800 GPU-小时。表 7 报告了 R1-Zero 101K H800 GPU-小时、R1 41K、SFT 数据创建 5K,总计 147K H800 GPU-小时。

计算设备不仅是 H800 集群,更是一个 long-CoT RL 工厂。rollout worker 使用 vLLM 配合 actor 模型,inference 模块加载 reference 模型和 reward 模型,一个基于规则的 reward 模块运行答案匹配、格式检查和代码执行,training 模块更新 actor。基础设施适应 GPU 显存压力:模型实例在各阶段之间从 VRAM 卸载,rollout 解码使用 expert parallelism、冗余 hot expert 和 MTP self-speculative decoding,训练使用按长度排序的 packing 加上 DualPipe pipeline parallelism。

瓶颈(Bottleneck)

核心瓶颈在于,将前沿 pretrained 模型转变为可靠的 long-reasoning policy,而不依赖大规模人工编写的 reasoning trace。论文认为,传统的 SFT 可能限制 exploration,因为人类示范可能遗漏 reflection、verification 和非人类解题路径。RL 可以探索,但 long-CoT RL 产生了不同的系统性问题:每个 prompt 可能生成 16 条非常长的 response,reward 评估可能很慢,且模型和 reference 必须保持足够接近以维持可训练性。

PPO 风格的 RL 在此规模下也变得繁琐。选择 GRPO 是因为它避免了单独的 value model,减少了显存和计算开销。长输出使得 padding 浪费、VRAM 驻留、reference 模型刷新和 rollout 延迟成为一级瓶颈。可靠的 reward 是另一个约束:基于规则的 verifier 适用于数学、代码、STEM 和逻辑,而基于模型的 reward 更容易遭受 reward hacking。

方法适配(Method Adaptation)

DeepSeek-R1-Zero 是最干净的计算适配。从 DeepSeek-V3-Base 出发,跳过 SFT,使用 GRPO 配合基于规则的 reward。对于每个问题,GRPO 采样 16 个输出并在组内计算相对 advantage。R1-Zero 使用学习率 3e-6、KL 系数 0.001、rollout temperature 1、每步 32 个不同问题、batch size 512 个输出。最大输出长度在 step 8.2K 之前为 32,768 tokens,之后为 65,536 tokens;训练运行 10,400 步,即 1.6 个 epoch。每次 rollout 产生 8,192 个输出,分为 16 个 minibatch 进行一个 inner epoch,reference 模型每 400 步替换一次。

DeepSeek-R1 将这个原始 reasoning policy 适配为可读且适合产品使用。pipeline 增加了数千个 cold-start long-CoT 示例、第一个 RL 阶段(加入语言一致性 reward)、从第一阶段 checkpoint 进行 rejection sampling、约 600K reasoning SFT 样本、约 200K non-reasoning SFT 样本,以及第二个 RL 阶段混合了规则 reward、偏好 reward 和语言 reward。第二个 RL 阶段将 rollout temperature 降至 0.7,因为更高的 temperature 导致生成不连贯,并将通用偏好 reward 训练限制在 1,700 步中的最后 400 步,以减少 reward hacking。

证据(Evidence)

训练曲线是核心证据。DeepSeek-R1-Zero 在 RL 过程中,AIME 2024 pass@1 从 15.6% 上升到 77.9%,self-consistency decoding 将其提升至 86.7%。论文报告思考时间在整个训练过程中增加,反思行为(包括"wait")变得更加常见;附录 C.2 指出代表性反思词汇增加了 5 到 7 倍。

表 3 展示了最终 R1 在 reasoning 与 instruction following 之间的平衡:AIME 2024 pass@1 达到 79.8,MATH-500 97.3,LiveCodeBench 65.9,Codeforces 96.3 百分位(rating 2029),SWE-Bench Verified 49.2,IF-Eval 83.3,AlpacaEval 2.0 87.6,ArenaHard 92.3。同一张表也说明了分阶段 pipeline 的重要性:R1-Zero 在数学上很强但在 instruction following 上较弱,而最终 R1 在混合 SFT 和 RL 后改善了通用用户偏好 benchmark。

评估设置也是计算导向的。DeepSeek-R1 输出在每个 benchmark 上限制为 32,768 tokens。论文通过 n-gram 过滤对 pretraining 和 post-training 数据进行了去污染,移除了约六百万条潜在数学 pretraining 文本,并从 2023 年前的竞赛中获取数学 SFT/RL prompt。

历史影响(Historical Effect)

DeepSeek-R1 使 long-CoT RL 成为一个公开的、开放权重的 scaling 维度。早期的 inference-time reasoning 方法主要花费更多解码样本,或将 frozen 模型包装在搜索中。R1 展示了一个 pretrained MoE 模型可以通过 post-training 使 policy 本身在难题上动态消耗更多 token,并学习 reflection 和 self-verification 行为。

从历史角度看,该论文也使 reasoning 模型的系统成本变得可见:长输出、verifier 延迟、reward 设计、expert-parallel rollout、模型卸载和 GPU-小时预算都是方法的一部分。GRPO 变得重要,因为它比依赖 value model 的 PPO pipeline 更好地匹配了 H800 规模的 long-CoT RL 的显存和 rollout 结构。

局限性(Limits)

论文对剩余瓶颈直言不讳。DeepSeek-R1 在结构化输出和工具使用方面弱于某些现有模型,且无法使用搜索引擎或计算器。它仍然在简单问题上过度思考,因此 token 效率仍然是开放问题。它主要为中文和英文优化,在其他语言中可能混合语言。它对 prompt 敏感,few-shot prompting 在评估中降低性能。软件工程的 RL 受限于评估时间过长,因此大规模 RL 未广泛应用于该领域。最后,纯 RL 依赖于可靠的 reward;基于规则的 reward 适用于可验证任务,但基于模型的 reward 可能被 hack。

链接(Links)


规范英文卡片:deepseek_r1_2025.md

规则:

  • 本文件为 GLM 辅助验证副本。
  • 不得添加英文卡片中不存在的声明。
  • 任何翻译争议请在此记录,并先在英文版本中解决。