Learning to summarize from human feedback

下载 PDF

Learning to summarize from human feedback - 中文验证版

英文原文卡片:summarize_human_feedback_2020.md

状态:已翻译。

元数据

计算设置

论文未命名确切的 GPU 型号、节点数量、内存大小或集群拓扑。但它确实报告了具体的计算事实。作者使用 1.3B 和 6.7B 参数的 GPT-3 式 Transformer 解码器进行人类反馈实验。附录 B 说明所有模型使用 fp16 激活和 Adam;几乎所有有监督基线、奖励模型和强化学习模型使用 fp32 权重,TL;DR 有监督基线为 fp16 权重例外。

对于预训练,模型在 Common Crawl、WebText、书籍和 Wikipedia 上训练 200-300B token,输入长度 2048,batch size 逐步增加到模型特定的最大值。超参数表列出最大 batch size:1.3B、3B 和 6.7B 为 512,13B 为 1024。有监督 TL;DR 微调使用 batch size 128 一个 epoch。奖励建模使用 batch size 64 一个 epoch。PPO 使用独立的策略和价值网络,1.3B 模型 batch size 512,6.7B 模型 batch size 256,每个 rollout batch 优化四个 epoch,1M episodes。论文明确说明 RL 微调 6.7B 模型需要约 320 GPU-days。按项目规则,未披露的硬件推断为 OpenAI GPU 集群基础设施。

瓶颈

瓶颈是人类偏好数据和 RL 成本下的目标质量。ROUGE 和参考摘要似然优化廉价,但论文论证它们是人工摘要质量的粗略替代指标。优化它们可能奖励复制、长度 artifacts 或词汇重叠,而非覆盖度、准确度、连贯性和整体有用性。人类比较是更好的目标,但收集昂贵且需要额外的奖励模型训练循环。

计算瓶颈在标签收集后出现。用于序列生成的 PPO 比有监督微调重得多,因为每个 episode 需要采样、奖励模型评分、KL 核算、价值估计和多次优化遍历。独立的价值网络在 RL 期间使大模型状态翻倍,但论文采用它,因为共享价值网络和策略参数可能在训练早期损害预训练策略。

方法适配

该方法使 RLHF 适配批量摘要设置。作者首先在过滤的 TL;DR 摘要上微调 GPT 式模型,产生有监督基线。他们从现有策略、参考和基线中采样摘要,然后要求人类评估者在成对比较中选择更好的摘要。奖励模型从有监督基线初始化,添加一个标量头,并训练为预测一个摘要优于另一个的对数几率。奖励输出经归一化使参考摘要平均分为零。

策略随后用 PPO 优化。奖励是奖励模型分数减去对有监督模型的 KL 惩罚。KL 项作为熵奖励和防止漂移到奖励模型训练分布之外的防护栏。每个生成 token 是一个时间步,但奖励仅在完整摘要结束时到达。

独立的价值网络是一种内存重的适配。它防止价值更新部分破坏预训练策略,并从奖励模型初始化。在报告的实验中,奖励模型、策略和价值函数大小相同,因此 6.7B PPO 运行在训练管线中携带多个 6.7B 级网络。论文还探索了 best-of-N 拒绝采样作为免训练替代方案:从有监督基线采样 N 个摘要,用奖励模型评分,选择得分最高的。这将成本从训练转移到推理。

证据

人类数据规模是明确的:发布的数据集包含 64,832 个 TL;DR 摘要比较,加评估数据。过滤的有监督 TL;DR 数据集包含 123,169 个帖子及其摘要。奖励模型缩放研究训练从 160M 到 13B 参数的模型,使用 8k 到 64k 比较,发现加倍数据提高验证准确率约 1.1 点,而加倍模型大小提高约 1.8 点。

主要偏好结果展示了为什么昂贵的循环是值得的。在 TL;DR 上,一个 1.3B 人类反馈模型在对参考摘要的原始偏好中击败一个 13B 有监督模型,61% 对 43%。在控制长度后,6.7B 人类反馈模型在约 65% 的时间仍被偏好于参考摘要。在 Likert 评估中,6.7B PPO 摘要 45% 的时间获得完美 7/7 总分,对比 6.7B 有监督基线的 20% 和参考摘要的 23%。

论文还确立了奖励模型是比 ROUGE 更好的优化目标。在 best-of-N 实验中,最高到 best-of-2048,使用来自 1.3B 有监督基线的样本,优化 ROUGE 更早达到峰值且人类偏好低于优化学习得到的奖励模型。作者警告奖励模型优化最终也会过拟合,但比 ROUGE 退化更晚。这直接连接了推理时搜索预算、度量选择和人类偏好质量。

历史影响

本文使 RLHF 成为大型语言生成的实用后训练计算模式。它将基于偏好的奖励建模推进到数十亿参数文本生成,具有清晰的三阶段管线:有监督初始化、奖励模型训练和 KL 正则化 PPO。它还表明较小的经过人类反馈的模型可以击败大得多的有监督模型。

历史上,论文还确立了延续到指令跟随的度量教训:学习得到的奖励模型可以是比廉价自动度量更有用的优化目标,但仅在受控的优化预算内。这成为后来对齐和助手训练系统的主要模板之一。

局限

论文清楚说明奖励模型可能被过度优化。KL 惩罚太小的 PPO 策略最终获得高奖励模型分数,但产生的人类判断更差的摘要。Best-of-N 搜索具有相同的结构风险。奖励模型仅在一个相对狭窄的摘要和比较分布上训练,因此优化压力可能暴露错误。

计算成本很大:6.7B RL 微调运行约 320 GPU-days,加上预训练、有监督微调、奖励模型搜索和人类标注的成本。硬件未披露,因此设备级可复现性不完整。任务也有界:TL;DR 摘要少于 48 token,输入帖子被过滤以适应上下文,标注者偏好定义了目标。该方法在报告设置中改进了人类评分质量,但不消除事实错误、标注者偏见或偏好收集的开销。

链接

  • 计算范式:history/compute_regimes/inference_time_compute_post_training/README.md
  • 来源 PDF 和抽取文本见上方元数据。
  • 队列状态:read_complete
  • 方法索引:rlhf
  • Ledger 更新:compute bottlenecks