Direct Preference Optimization: Your Language Model is Secretly a Reward Model - 中文验证版

英文原始依据卡片：dpo_2023.md

状态：已翻译。

元数据

阅读状态： read complete
年份： 2023
计算范式： 推理阶段计算与后训练 (inference_time_compute_post_training)
PDF： 2023-dpo_2023.pdf
抽取文本： 2023-dpo_2023.txt
PDF URL： https://arxiv.org/pdf/2305.18290.pdf
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期： 2026-06-15

计算设置

论文未列出加速器型号、节点数、wall-clock 训练时间或内存布局。它承认 Stanford Center for Research on Foundation Models 提供了部分计算资源。根据项目规则，设备设置因此推断为 2023 年学术基础模型 GPU 集群，而非论文声明的硬件结果。实验使用最大 6B 参数的模型，包括 GPT-J-6B 用于摘要和 Pythia-2.8B 用于对话。

来源即使没有设备名称，也提供了训练规模的细节。除非另有说明，DPO 使用 beta 0.1、batch size 64、RMSprop、学习率 1e-6 和 150 步 warmup；TL;DR 摘要使用 beta 0.5。PPO 情感基线每步使用 1024 个 batch samples，情感前沿扫描包括 22 次训练运行。论文的重点不是更大的集群，而是移除需要额外模型、rollout 和在线采样的 RLHF 组件。

瓶颈

瓶颈是后训练计算和控制复杂性。论文将标准 RLHF 流程描述为：在偏好上训练一个奖励模型，然后使用强化学习优化语言模型策略，同时通过 KL 约束使其接近参考模型。该流程涉及训练多个语言模型规模的分量，并在训练期间从策略中采样，作者明确指出这在计算上是昂贵的。PPO 还会引入 rollout 生成、优势估计、奖励归一化或调参选择，以及围绕 reward/KL 前沿的不稳定性。

在 Best-of-N 基线中还存在一个相关的推理时瓶颈。Best-of-N 可以通过采样 N 个补全并选择得分最高的来将奖励模型质量与 PPO 优化分离，但论文称即使对于中等 N 来说这也计算上不可行。在对话中，Best of 128 用作一个强劲但开销大的对比项。因此，DPO 的计算目标同时针对训练时的 RL 机制和推理时的重排序乘法。

方法适配

DPO 将偏好优化转化为普通的监督微调形式。关键推导重写了 KL 约束的奖励最大化问题，使偏好似然直接以可训练策略和固定参考策略的形式表达，而非显式的独立奖励模型。得到的损失是在偏好和拒绝响应上的二元交叉熵目标。在计算层面，每个 batch 由离线偏好对组成，更新会增加偏好补全的相对对数概率，同时考虑参考模型和由 beta 控制的 KL 强度。

这种结构比 PPO 式 RLHF 更适合加速器批处理。没有在线 rollout 循环，没有需要在策略优化期间训练和服务的独立奖励模型，也没有需要维护的 actor-critic 状态。参考策略仍然重要，因此 DPO 并非零成本；它需要在当前策略和参考下评估 chosen 和 rejected 补全的对数概率。但这项工作类似于在固定数据上的序列微调，使内存使用和批处理变得可预测。

证据

情感实验通过绘制奖励相对于参考策略 KL 的曲线直接测试优化效率。论文报告 DPO 产生最有效的前沿，在保持低 KL 的同时达到最高奖励，并且严格支配 PPO 的 reward/KL 权衡，即使 PPO 在 PPO-GT 中可以访问真实奖励函数也是如此。这是计算结构性的证据：DPO 和 PPO 目标是同一个目标族，但 DPO 在不运行在线 RL 循环的情况下达到了更好的前沿。

对于 TL;DR 摘要，DPO、PPO 和 Preferred-FT 在相同的 GPT-J SFT 模型上进行微调。GPT-4 评估相对于参考摘要，DPO 在温度 0 下达到约 61% 的 win rate，而 PPO 在最优温度下峰值约 57%。论文还报告 DPO 对采样温度比 PPO 更鲁棒，并且人类评估者在 58% 的比较中偏好温度为 0.25 的 DPO 样本胜过温度为 0 的 PPO 样本。

对于 Anthropic HH 对话，DPO 从 Pythia-2.8B 开始，与 Preferred-FT、带 prompt 的基座模型和 Best of 128 进行比较。论文的计算相关结论是，DPO 是这组方法中唯一既高效又超越偏好补全的方法，同时表现与昂贵的 Best-of-128 基线相似或更好。

历史影响

DPO 使偏好对齐看起来像普通的微调，而非特殊的 RL 系统。开源模型的后训练团队可以用标准语言模型训练基础设施复现它，而无需构建完整的奖励模型加 PPO rollout 堆栈。它还将对齐实践转向了离线偏好数据集、参考模型对数概率和直接目标。

在计算主线的框架中，DPO 的重要性在于它将成本从推理时采样和在线 RL 交互转移回固定数据集上的密集批处理训练。它没有减少预训练计算，但降低了将预训练模型转变为有用的指令遵循模型的后训练阶段的系统门槛。

局限

本卡最重要的局限是缺少硬件披露。论文未说明 GPU 类型、GPU 数量、wall-clock、激活检查点、内存策略或总训练 FLOPs，因此超出项目规则推断的设备特定声明将无依据。规模也受限：论文评估的是最大 6B 参数的模型，并明确将 DPO 扩展到数量级更大的 state-of-the-art 模型列为未来工作。

评估限制也很重要。GPT-4 的 win rate 对 prompt 敏感，论文通过人类研究进行了验证，但并未消除这种依赖。DPO 也使用离线偏好数据，因此它没有回答在线数据收集、自标注或奖励过度优化是否与 PPO 式 RLHF 表现相同。计算教训是窄的：直接离线优化可以在避免主要 RLHF 机制的同时匹敌或胜过 PPO 类方法。

链接

计算范式：history/compute_regimes/inference_time_compute_post_training/README.md
来源 PDF 和抽取文本见上方元数据。
Queue 状态：read_complete。
方法索引：rlhf
对照更新：compute bottlenecks