Deep Reinforcement Learning from Human Preferences - 中文验证版

英文原文卡片：human_preferences_2017.md

状态：已翻译。

元数据

阅读状态：read complete
年份：2017
计算范式：推理阶段计算与后训练 (inference_time_compute_post_training)
PDF：2017-human_preferences_2017.pdf
抽取文本：2017-human_preferences_2017.txt
PDF URL：https://arxiv.org/pdf/1706.03741.pdf
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期：2026-06-15

计算设置

论文给出了一条精确的硬件/成本陈述。对 Atari 实验，它使用一台 Google Compute Engine 虚拟机，配备 16 个 CPU 和一块 NVIDIA K80 GPU，每月费用约 $700。估计训练耗时约一天，因此计算成本约 $25，而以 5k 标签训练对应约 5 小时人工，按论文使用的美国最低工资约 $36。这一明确比较是核心：作者在展示人类反馈可以变得与计算成本可比，而非高出几个数量级。

论文未列出 MuJoCo 的单独硬件设置。按项目规则，MuJoCo 运行推断为使用 2017 时代适合 TRPO 仿真和神经奖励模型训练的 CPU/GPU 工作站或云硬件，但除 Atari GCE/K80 陈述外不应断言具体设备。算法上，Atari 策略使用同步形式的 A3C 算法 A2C，配备 16 个并行 worker、每更新 5 步、50M 实际训练步、Adam，以及 Mnih 等人的 DQN 式卷积策略架构。MuJoCo 策略使用 TRPO。奖励预测器与 RL 智能体异步训练。

瓶颈

瓶颈是监督带宽，而不仅仅是原始仿真器吞吐量。深度 RL 可能需要数百或数千小时的经验，但要求人类标注每个动作或每个状态将过于昂贵。论文摘要称该方法在向人类反馈少于智能体与环境交互 1% 的情况下解决了 Atari 和仿真机器人运动任务。整个计算结构围绕使用大量廉价环境交互和极少量昂贵人类比较而构建。

还存在非平稳性瓶颈。奖励预测器从对智能体当前行为的偏好中学习，而策略同时变化以利用该预测器。如果标签仅在初始收集，预测器可能在后续状态上失效；如果标签过于稀疏或延迟，RL 策略可能利用学习到的奖励中的错误。因此作者需要在线异步管线，其中轨迹、人类比较和奖励模型参数持续相互更新。

方法适配

该方法通过请求短轨迹片段之间的成对比较，将人类反馈适配到 RL。人类观看两个片段并选择哪个更好，或标记平局或"无法判断"。这比完整演示或密集奖励标签的带宽低得多。学习到的奖励预测器通过对这些比较的监督学习训练，策略随后用标准 RL 算法优化预测的奖励。

若干选择契合计算和内存限制。对 MuJoCo，比较片段持续 1.5 秒，从 15 到 60 步不等。对 Atari，奖励预测器使用与策略相同的 84×84 图像输入风格，堆叠 4 帧为 84×84×4 张量，运行四层卷积后接 64 单元全连接层和标量输出。Atari 片段为 25 步，在 15 fps 带跳帧下约 1.7 秒。预测器使用批归一化、dropout 和正则化以避免过拟合，因为标签缓冲区很小。

反馈调度器是另一计算适配。在 Atari 中，系统从随机策略收集 500 个比较，预训练奖励预测器 200 epoch，然后标签速率大致随训练进度衰减。预测器仅保留最近 3,000 个标签并在该缓冲区上循环，因此分布偏移下的近期标签起重要作用。除特别说明外，系统使用三个预测器的集成，抽取 10 倍于将展示给人类的候选片段对，并选择在预测器间方差高的对。这花费模型计算以节省人类注意力。

证据

在 MuJoCo 上，图 2 评估了八个仿真机器人任务，比较了 700 个人类查询、合成查询计数和使用真实奖励的 RL。文字陈述使用 700 个标签时，该方法在所有这些任务上接近匹配强化学习。它还报告到 1,400 个标签时学习到的奖励有时略优于原始真实奖励，可能因为学习到的奖励通过为通常通向高奖励的行为分配正奖励而提供了更好的 shaping。人类反馈的效率为真实反馈的一半到同等高效，在 Ant 上它优于合成反馈，因为人类指示偏好直立站立提供了有用的 shaping。

在 Atari 上，图 3 使用 5,500 个人类查询。该方法匹配真实奖励 RL 更困难，但在大多数游戏上显示出实质性学习，并在一些游戏上匹配或超过 RL。用合成标签，BeamRider 和 Pong 在 3,300 个标签下匹配或接近 RL；Seaquest 和 Qbert 接近 RL 但更慢；SpaceInvaders 和 Breakout 大幅改进但不匹配 RL。用真实人类反馈，性能与相同数量标签的合成反馈相似或略差，且通常与少 40% 标签的合成反馈可比。Qbert 是失败案例，因为短片段难以让标注者评估。

定性行为展示了低人类时间声明。Hopper 后空翻用 900 次查询在不到一小时内训练；Half-Cheetah 单腿前进用 800 次查询在不到一小时内训练；Enduro 与其他车保持并排的行为使用约 1,300 次查询和 4M 环境帧。成本脚注将其与硬件关联：在 16-CPU/K80 GCE 虚拟机上一天的 Atari 成本约 $25，而 5k 标签花费约 5 小时人工。

历史影响

历史上，本文是从经典 RL 到后来 RLHF 的计算桥梁。它表明偏好标签可以训练一个学习到的奖励模型，然后由高吞吐 RL 循环优化。重要的计算举措是摊销：人类标注一个小的、主动选择的短片段子集，智能体将这些比较转化为数百万环境交互。后来的语言模型 RLHF 改变了领域和模型规模，但保留了成对偏好、奖励建模、KL/正则化策略优化以及对奖励利用的关切的模式。

局限

该方法受限于人类和模型的失败模式。人类标签可能嘈杂、标注者间不一致或随时间分布不均，将监督集中在狭窄的状态区域。某些环境难以从短片判断；论文明确指出 Qbert 让标注者困惑。如果反馈非在线收集，学习到的奖励可能被利用，消融实验显示在线反馈和基于集成的查询选择很重要。硬件陈述也狭窄：仅 Atari GCE/K80 设置是明确的，因此 MuJoCo 的设备级成本仍不明确。最后，奖励预测器和 RL 策略按后来标准较小；该结果确立了偏好学习结构，而非为当今前沿模型硬件提供可缩放配方。

链接

计算范式：history/compute_regimes/inference_time_compute_post_training/README.md
来源 PDF 和抽取文本见上方元数据。
队列状态：read_complete。
方法索引：rlhf
Ledger 更新：compute bottlenecks