Let's Verify Step by Step

下载 PDF

Let's Verify Step by Step - 中文验证版

英文原始依据卡片:verify_step_by_step_2023.md

状态:已翻译。

元数据

计算设置

论文未披露训练或推理的加速器类型、节点数、内存大小或 wall-clock 时间。根据项目规则,计算设备因此从研究时间和机构背景推断为 GPT-4 时代的 OpenAI 内部加速器基础设施,而非公开指定的 GPU/TPU 设置。论文确实给出了具体的计算代理。大规模模型从一个基座 GPT-4 模型微调而来,该模型经过 next-token 预训练且未经过 RLHF 预训练,而小规模基座模型在设计上相似但预训练计算量约少 200 倍。

所有模型在 MathMix 上接受数学聚焦的微调阶段。附录 A 说明 MathMix 包含约 1.5B 数学相关 tokens;大模型实验在约 3B MathMix tokens 上训练两个 epoch,而小模型实验使用 1B token 变体并训练六个 epoch,约 6.6B tokens。PRM800K 包含 12K 问题、75K 解答上的 800K 训练步骤标签,是在过滤了 1,085,590 个标签(覆盖 101,599 个采样解答)的更大集合之后的结果。核心推理预算是在 MATH 留存子集上的 best-of-1860 搜索。

瓶颈

核心瓶颈是高推理时采样下的可靠选择。MATH 问题通常有可自动检查的最终答案,因此结果监督可廉价收集,但最终答案标签是低带宽信号。模型可以通过无效推理得到正确答案,或者答案检查器可能误判具有正确推理但格式尴尬的解答。随着采样解答数量增长,这变成了一个对许多可能轨迹的搜索问题。

这创造了一个推理计算的权衡。多数投票可以利用许多样本,但它将每个解答压缩为最终答案并忽略推理是否可信。结果奖励模型可以评分整个解答,但由于它仅在答案正确性上训练,可能学得捷径,将表面有说服力的错误推导排名过高。因此瓶颈是人类监督与搜索之间的带宽:标注者必须提供多少信息,才能使验证器在生成器被采样数百或数千次时仍然有效?

方法适配

该方法围绕推理瓶颈适配后训练管线。生成器被训练为输出换行分隔的逐步解答,不是因为声称这教授新的数学知识,而是因为它使每一步对标注者和奖励模型都可解析。人工标注者将每一步标记为正、负或中性。为最大化有限标注时间的价值,解答从大规模生成器中采样,主动选择偏向于有说服力的错误答案解答,这些是最有可能暴露验证器失败的案例。

过程奖励模型(PRM)相对于重复生成是廉价的。它预测每一步在步骤最后一个 token 后的正确性,使用普通的语言模型对数似然目标;论文指出这可以在标准语言模型管线中训练。在测试时,一次 PRM 前向传递整个解答得到步骤概率。一个候选的 PRM 分数是步骤正确性概率的乘积,适配生成-然后-验证的推理模式。

该项目也小心地不将其转化为强化学习结果。生成器在核心比较中是固定的;实验隔离了验证器监督和搜索。计算被移到两个地方:后训练期间更高分辨率的人工标签和推理时更大的 best-of-N 采样。

证据

在留存的 500 道 MATH 测试子集上,大规模 PRM 使用 best-of-1860 搜索解决了 78.2% 的问题。最强的结果监督奖励模型达到 72.4%,多数投票达到 69.6%。绘制的 best-of-N 曲线作为计算证据很重要:PRM 不仅在一个固定采样数下更好;性能差距随 N 增加而扩大,表明步骤监督与在搜索上花费更多推理计算更具兼容性。

ORM 基线并非由构造而弱。论文在来自生成器的每个问题 100 个均匀样本上训练它,使 ORM 数据集比 PRM800K 大一个数量级且与之不重叠。这是一个有用的计算设备比较:当推理循环在搜索许多生成轨迹时,更多粗糙标签无法干净地替代更少但更高带宽的步骤标签。PRM 也在留存 STEM 评估中泛化到 MATH 子集之外:在 224 道近期 STEM 问题上,作者报告了相同的定性模式,PRM best-of-100 优于 ORM 和多数投票。

MathMix 数字提供了训练侧证据。与其使用更大的 Minerva 式 38.5B token 数学语料,本工作使用经过过滤的 1.5B token 混合,然后在过程标签和搜索上花费计算。该系统展示了从"仅训练更好的生成器"到"训练一个数学适配的生成器,然后使用验证器使推理计算富有成效"的转变。

历史影响

从历史上看,论文使过程监督成为推理系统的具体计算结构。它将缩放重新定义为一种劳动分工:预训练和数学微调产生候选推理,人工步骤标签训练验证器,测试时采样/搜索将额外的推理计算转化为更高的准确率。这特别重要,因为改进在 N 较高时最大,恰是模型部署可以为更难问题选择花费更多延迟或加速器预算的地方。

因此本卡位于推理阶段计算与后训练范式中。它没有引入新的加速器或架构;它改变了加速器被要求做什么。设备不是运行一次解码和一个答案,而是运行许多次解码和验证器传递,而过程标签使这些传递更具选择性。

局限

主要硬件限制是不披露:论文未说明 GPU、TPU、内存、并行性、训练 wall time 或推理延迟。"计算量少 200 倍于 GPT-4"的陈述仅是相对的预训练计算标记,而非可复现的设备设置。该方法还依赖于步骤标签有意义且最终答案经常可检查的领域。

生成器是固定的,而非针对 PRM 通过 RL 进行端到端训练,因此论文未衡量闭合该循环的计算或稳定性成本。Best-of-1860 是一个大的推理预算,可能不适用于低延迟设置。PRM 通过步骤概率的乘积进行评分可能惩罚长解答,且步骤标签相对于最终答案标签是昂贵的。结果最好被解读为证据,表明过程监督使搜索扩展得更好,而非对生产推理成本的完整核算。

链接

  • 计算范式:history/compute_regimes/inference_time_compute_post_training/README.md
  • 来源 PDF 和抽取文本见上方元数据。
  • Queue 状态:read_complete
  • 方法索引:inference_time_reasoning
  • 对照更新:compute bottlenecks