Training language models to follow instructions with human feedback - 中文验证版

英文原始依据卡片：instructgpt_2022.md

状态：已翻译。

元数据

阅读状态：read complete
年份：2022
计算范式：推理阶段计算与后训练 (inference_time_compute_post_training)
PDF：2022-instructgpt_2022.pdf
抽取文本：2022-instructgpt_2022.txt
PDF URL：https://arxiv.org/pdf/2203.02155.pdf
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期：2026-06-15

计算设置

论文未列出硬件设备类型、GPU/TPU 型号、节点数量或每加速器的内存。根据项目规则，设备设置推断为 OpenAI 的 GPT-3 类加速器基础设施。论文确实提供了强有力的计算代理指标。所有模型架构使用 GPT-3 架构，策略参数量为 1.3B、6B 和 175B。模型使用 fp16 权重和激活值，配以 fp32 的权重主副本、2k token 上下文长度，以及 beta1 0.9 和 beta2 0.95 的 Adam。超过 1k token 的 prompt 被过滤掉，回复被限制在 1k token。

监督微调运行 16 个 epoch，残差 dropout 0.2，余弦学习率衰减，1.3B 和 6B 的 batch size 为 32，175B 的 batch size 为 8。最终奖励模型是单个 6B 模型，训练一个 epoch，batch size 64；每条 prompt 有 K=4 到 K=9 个补全，经排名扩展后每 batch 产生最多 2,304 个成对比较。RLHF 对所有策略训练 256k 个 episode，覆盖约 31k 条唯一 prompt，batch size 512，minibatch size 64，每个 batch 一个内部 epoch。作者报告了聚合计算：175B SFT 模型为 4.9 petaflops/s-days，175B PPO-ptx 模型为 60 petaflops/s-days，而 GPT-3 预训练为 3,640。

瓶颈

瓶颈是使预训练模型与用户意图对齐而不从头重新训练基础模型。GPT-3 规模的预训练产生广泛的能力，但不是可靠的 helpful、honest、遵循指令的行为。Prompting 有帮助，但它不足以改变模型对 API prompt 分布的底层行为。昂贵的资源变为高质量人工演示和比较，加上对高达 175B 参数模型的稳定后训练。

奖励建模和 PPO 中还存在计算稳定性瓶颈。一个 175B 奖励模型可能降低验证损失，但作者发现它更不稳定，作为 value-function 初始化的适用性更差，且与 PPO 配对时昂贵得多。PPO 可能导致在公共 NLP 数据集上的退化，因此该方法在 RL 期间混入预训练梯度。

方法适配

InstructGPT 将 RLHF 适配为可复用的助手训练流水线。第一步收集标注者演示并训练一个监督策略。SFT 数据集包含约 13k 条训练 prompt，来自 API 和标注者编写的来源。第二步收集比较数据：标注者为一条 prompt 对 K=4 到 K=9 个模型输出进行排名，产生用于奖励模型训练的成对比较。RM 数据集包含约 33k 条训练 prompt。第三步使用 PPO 根据奖励模型优化 SFT 策略，使用来自 API 分布的约 31k 条 PPO prompt。

6B 奖励模型是一个关键的计算适配。作者没有在每次 PPO 更新中训练并 serving 一个 175B 奖励模型和一个 175B 价值模型，而是对所有策略大小使用一个 6B RM 和一个 6B 价值函数。这减少了内存和计算，同时使跨策略大小的比较更清晰。奖励模型对完整 prompt/回复输出标量奖励，PPO 对 SFT 模型应用每 token 的 KL 惩罚以缓解奖励过优化。

PPO-ptx 增加了另一项适配：预训练梯度混入 PPO 梯度。对每个 minibatch，PPO 和预训练梯度在连续步骤中计算并累积，预训练梯度乘以一个系数。这增加了训练工作量，但减少了在 SQuADv2 和 DROP 等任务上的退化。

证据

核心证据是人类偏好空间中的计算效率结果。1.3B InstructGPT PPO-ptx 模型的输出比 175B GPT-3 的输出更受偏好，尽管参数量少约 100 倍。175B InstructGPT 模型在 85 +/- 3% 的时间内比 175B GPT-3 更受偏好，在 71 +/- 4% 的时间内比 few-shot prompted 175B GPT-3 更受偏好。这是核心的历史观点：一个相对适度的后训练预算可以在用户偏好方面比基础模型参数量的非常大增长产生更大的变化。

数据流水线规模也是明确的。作者雇佣了约 40 名承包商的团队。SFT 数据集有 13k 条训练 prompt，RM 数据集有 33k 条训练 prompt，PPO 数据集有 31k 条训练 prompt。最终评估同时使用训练标注者和保留标注者，保留标注者对 InstructGPT 的偏好率与产生训练数据的标注者大致相同。跨标注者组的奖励模型交叉验证对来自训练组标注者的偏好给出 72.4 +/- 0.4% 的准确率，对保留标注者组给出 69.6 +/- 0.9%。

论文的计算核算支持后训练框架。一个 175B PPO-ptx 运行花费 60 petaflops/s-days，而 GPT-3 预训练为 3,640。作者指出这是预训练开销的一小部分，并且 RLHF 对其客户任务分布比 100 倍模型规模增加更有效。

历史影响

InstructGPT 将对齐变成了一个工业后训练流水线：演示、偏好排名、奖励模型、PPO、KL 控制和预训练混合。它使后来的聊天模型的助手行为可以解释为预训练之后的一个计算层，而不是仅基础模型的属性。它还使人类偏好成为指令遵循的主要基准，而不仅仅是零样本 NLP 分数。

计算教训是决定性的。不是训练更大的基础模型以获得更好的 API 行为，本文表明，一个较小的对齐模型可以在直接偏好比较中击败大得多的未对齐模型。这使投资转向数据质量、标注者指令、奖励模型稳定性和 RLHF 基础设施。

局限

硬件仍然未披露，因此确切的设备级方案无法从论文中复现。成本数字是聚合的 petaflops/s-days，而不是加速器数量、内存占用或 wall-clock 计划。该方法还继承了一个小标注者池的偏好和盲点。作者明确将对齐框架化为对齐到其标注者和研究人员的偏好，而不是宽泛的人类价值概念。

模型仍然会犯简单错误、产生幻觉，并且没有 PPO-ptx 时在公共 NLP 任务上可能退化。混入预训练梯度缓解了一些退化，但增加了训练复杂性和计算量。6B 奖励模型是一个务实的折中，不是奖励建模已解决的证明。最后，出于成本原因，大多数比较由一名承包商标注，因此分歧和多元偏好仅被部分代表。

链接

计算范式：history/compute_regimes/inference_time_compute_post_training/README.md
来源 PDF 和抽取文本见上述元数据。
队列状态：read_complete。
方法索引：rlhf
对照更新：compute bottlenecks