WebGPT: Browser-assisted question-answering with human feedback - 中文验证版

英文原文卡片：webgpt_2021.md

状态：已翻译。

元数据

阅读状态：read complete
年份：2021
计算范式：推理阶段计算与后训练 (inference_time_compute_post_training)
PDF：2021-webgpt_2021.pdf
抽取文本：2021-webgpt_2021.txt
PDF URL：https://arxiv.org/pdf/2112.09332.pdf
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期：2026-06-15

计算设置

论文未披露 GPU/TPU 型号、主机数量、训练 wall-clock 或服务硬件。它报告了在 GPT-3 系列中 760M、13B 和 175B 参数的精调模型上的实验。按照项目规则，设备设置推断为 OpenAI 的 GPT-3 时代加速器基础设施，但这是从提供商和模型家族出发的推断，而非论文的陈述。

计算规模仍然通过模型大小、数据和训练循环形态进行了描述。作者收集了约 6,000 条浏览演示和约 21,500 个比较，最终的奖励模型在约 16,000 个比较上训练，5,500 个比较保留用于评估。主要评估的 WebGPT 模型将行为克隆与奖励模型拒绝采样结合：760M 选 4 最佳、13B 选 16 最佳、175B 选 64 最佳。PPO 也被测试：表 7 列出 256 个并行环境、每次 rollout 256 个 timestep、1 个 epoch 和 128 个 minibatch 每 epoch。附录 E 指出由于 GPU 内存限制，他们使用了默认 PPO 设置 16 倍数量的 minibatch 每 epoch，且 PPO 迭代持续数小时。

瓶颈

瓶颈是长篇事实性 QA，其中模型不仅需要回答，还需要搜索、导航、引用、引证和综合。一个静态语言模型可以从参数记忆中回答，但任务要求的是最新且可核查的支持。实时浏览使计算变为串行：每个搜索、点击、滚动、查找或引用操作都会改变下一个文本观察，并且模型除了记录在浏览器状态摘要和后续参考文献列表中的内容外，没有之前步骤的隐藏记忆。

人类反馈是第二个瓶颈。演示教会命令格式，但答案质量通过偏好比较和奖励建模来优化。人类评估是噪声高且昂贵的，因此系统重度依赖奖励模型分数进行早停、超参数调优、PPO 奖励和拒绝采样。这将部分人类成本转化为模型推理成本：best-of-n 解码采样许多完整的浏览器辅助答案，让奖励模型在其中选择。

方法适配

WebGPT 将 web 适配给语言模型，而不是将语言模型适配给图形浏览器。来源描述了一个基于文本的浏览器：模型接收一个书面状态摘要，必须发出搜索（Search）、点击（click）、滚动（scroll）、查找（find）、引用（quote）或回答（answer）等命令。搜索查询发送到 Microsoft Bing Web Search API；点击的页面由 Node.js 脚本获取并使用 Mozilla Readability 进行简化；HTML 转为文本；PDF 使用 pdfminer.six 转换；参考文献格式化后插入回答提示。这一设计将高带宽的 web 界面转化为一个适配 GPT-3 提示和精调的 token 流。

训练栈具有四个层次。行为克隆在人类浏览器命令上进行训练。奖励模型使用比较标签为问题-答案-参考文献三元组打分。PPO 针对奖励模型分数加上相对行为克隆模型的 KL 惩罚来精调浏览策略。拒绝采样不消耗额外的梯度更新，而是采样 4、16 或 64 个候选答案，选择奖励模型得分最佳的一个。这是一个直接的推理阶段计算权衡：更多完整的回答尝试、更多 web 轨迹和更多奖励模型评估，以换取更好的人类偏好。

PPO 细节展示了针对内存和并行性的适配。作者为简单性使用独立的策略和价值网络，将长完成结果拆分为多个动作以改善 rollout 的并行性，在每次浏览回合后插入 15 个额外的纯作答回合以提高约 2 倍的样本效率，并设置每个动作最多 64 token。GPU 内存压力迫使使用大量小的 PPO minibatch，而 256 个并行环境使 rollout 足够宽以适用 PPO 裁剪。

证据

顶线证据是基于偏好的。175B 选 64 最佳模型被偏好于人类演示者撰写的答案 56% 的比例，以及优于 ELI5 最高票参考答案 69% 的比例。摘要还报告最佳模型的答案在 75% 的情况下被判定为正确，54% 的情况下既正确又具信息量，优于基础 GPT-3 但在该事实性评估上未及人类表现。

消融证据支持了推理阶段计算的故事。拒绝采样提供了巨大收益：175B 选 64 最佳的行为克隆模型在 68% 的情况下被偏好于未经过拒绝采样的 175B 行为克隆模型。PPO 给出较小的增益：175B RL 模型在 58% 的情况下被偏好于 175B BC 模型。作者认为拒绝采样可以尝试许多次回答、访问更多网站并以事后视角评估所找到的信息，而 PPO 更难调优且可能对同一奖励模型过优化。将 RL 与拒绝采样结合相对仅拒绝采样几乎没有额外收益。

数据规模同样重要。约 6,000 条演示教会了浏览器格式，约 21,500 个比较支撑了奖励建模和评估。RL 使用 90% ELI5 和 10% TriviaQA 混合问题，浏览动作限制在 20 到 100 之间随机化。早停因模型大小而异：表 8 给出 760M/13B/175B 的 BC epoch 分别为 2/5/3，RL 停止分别在 19、30 和 18 次 PPO 迭代。

历史影响

WebGPT 是一个早期且具体的演示，表明前沿语言模型可以操作一个文本工具接口、收集参考文献，然后通过人类反馈得到改进。其计算教训是检索或浏览不仅仅是一个预处理阶段，它可以成为策略动作循环的一部分。它还表明当推理预算可用时，best-of-n 奖励模型重排序可以是额外 RL 的一个强替代方案。后来的 agent、RAG 和 RLHF 系统复用了这一工具环境、行为克隆、偏好模型、KL 约束优化和推理时候选选择模式。

局限

论文自身的省略对计算卡片而言很重要：硬件未列出，因此设备级别的成本无法从来源重建。该方法比静态 QA 昂贵得多，因为每个候选答案可能包含一系列浏览器动作加上最终的长篇生成，而 64 选 1 更将成本相乘。浏览器状态是文本压缩的，因此模型可能错过因简化、搜索排序、页面转换或参考文献截断而隐藏的信息。奖励模型优化可能偏爱表面令人信服的引用，作者指出 RL 可能对奖励模型过优化。该系统还依赖于外部搜索基础设施，以及昂贵且有时嘈杂的人类标注员判断。

链接

计算范式：history/compute_regimes/inference_time_compute_post_training/README.md
源 PDF 和抽取文本已在上方元数据中列出。
队列状态：read_complete。
方法索引：RLHF、RAG
Ledger 更新：计算瓶颈