Constitutional AI: Harmlessness from AI Feedback - 中文验证版

英文原始依据卡片：constitutional_ai_2022.md

状态：已翻译。

元数据

阅读状态：read complete
年份：2022
计算范式：推理阶段计算与后训练 (inference_time_compute_post_training)
PDF：2022-constitutional_ai_2022.pdf
抽取文本：2022-constitutional_ai_2022.txt
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期：2026-06-15

计算设置

论文未列出 GPU/TPU 硬件、加速器数量、wall-clock 时间或能源使用。它确实披露了主要模型包括 52B 参数系统，并且这项工作建立在 Anthropic 的预训练、RLHF、偏好模型和分布式训练基础设施之上。根据项目规则，设备设置只能宽泛地推断为 Anthropic 的 2022 年代加速器集群训练和推理；不应声称确切设备。

来源给出了有用的规模代理。对于监督式宪法 AI（SL-CAI），作者使用 42,496 条人工编写的红队 prompt 加上 140,335 条模型生成的红队 prompt，共 182,831 条。他们从 helpful RLHF 模型中为每条红队 prompt 采样四个 critique-revision 对。他们还使用 135,296 条人工编写的 helpfulness prompt，并为每条 prompt 采样两个回复。SL-CAI 微调运行一个 epoch，batch size 1024 序列，学习率为预训练学习率的 0.5 倍。

对于 RL-CAI 偏好建模，论文使用 135,296 条人工反馈 helpfulness 比较和 182,831 条宪法生成的 harmlessness 比较。受控 RL 运行使用来自 SL-CAI 的所有 prompt 加上额外的模型生成 prompt，红队 491,142 条，helpfulness 474,300 条。评估使用 10,274 条 helpfulness 和 8,135 条 harmlessness 比较，对 24 个模型快照进行 AB 测试。

瓶颈

瓶颈是对齐数据和偏好监督，而不仅仅是预训练 FLOP。RLHF 传统上需要大量人工比较来实现 harmlessness，论文认为这是昂贵的、主观的、对红队工作者不愉快的，并且难以扩展。计算/数据问题变为：一个现有的 helpful 模型能否生成质量足够好的 critique、revision 和 harmlessness 偏好标签来训练另一个模型？

还存在安全性与质量的瓶颈。先前仅 helpfulness 的 RLHF 模型可能变得更愿意回答有害请求，而 helpful-and-harmless 的 RLHF 模型可能变得回避。论文将宪法方法框架化为在 helpfulness/harmlessness Pareto 前沿上移动：在不简单地拒绝或添加通用样板的情况下减少 harmfulness。这需要大量的模型采样、偏好模型评分和 RL 更新，因此推理时的生成和评分成为训练计算的一部分。

思维链用作监督的计算杠杆。论文报告 CoT 风格的推理改善了 AI 对危害的识别，并使训练时的决策更可解释。额外的 token 可以提高标签质量和偏好模型校准。

方法适配

该方法有两个阶段。在监督阶段，一个仅 helpful 的助手响应 harmfulness prompt，根据随机选择的宪法原则 critique 自己的回复，并修订它。修订后的回复与 helpfulness 样本混合，一个预训练模型在结果上进行微调。这使模型"进入分布"以便后续 RL 阶段，并减少探索需求。

在 RL 阶段，该方法用 AI 反馈取代人工 harmlessness 标签。SL-CAI 模型为有害 prompt 生成成对的回复。另一个模型根据宪法原则评估该对回复，产生偏好标签。这些 harmlessness 标签与人工 helpfulness 标签混合，训练一个混合偏好模型。然后策略针对该偏好模型进行 RL 训练，使 RL 流水线在结构上类似于 RLHF，但在 harmlessness 上使用 RLAIF。

这是计算适配的对齐方法。系统不是为每一次 harmlessness 比较向人类付费，而是将 LLM 推理花费在 critique、revision、pair 生成、CoT 反馈和偏好标注上。宪法是一个紧凑的自然语言控制界面，偏好模型将大量昂贵的 AI 判断蒸馏为一个可以在 RL 期间重复使用的奖励函数。

证据

论文给出了多条证据流。首先，它报告较大的模型在 HHH 评估上更好，并且思维链在 438 个二元比较问题上改善了性能。作者指出，随着模型规模增加，这些 AI 评估变得与基于人类反馈标签训练的偏好模型相当，52B 是关键的报告规模。

其次，critique-revision 流水线改善了 harmlessness 分数。图 5 使用基于人类反馈 harmlessness 比较训练的 52B 偏好模型评估了初始回复和连续的修订。Harmlessness 和组合的 helpful-harmless 分数随修订次数单调改善，而纯 helpfulness 分数下降。图 7 比较了 critique 修订和直接修订；critique 修订有助于较小的模型，并且即使在大型模型上差异不太明显，也保留用于透明性。

第三，众包工作者评估支持最终的 RL-CAI 模型。论文报告 RL-CAI 模型显著比 RLHF 和 SL-CAI 模型更无害，同时比纯回避的无害模型更好地保持 helpfulness。图 2 绘制了 52B RL 运行的 harmlessness 对 helpfulness，显示 RL-CAI 改善了前沿。图 8 追踪了 RL 训练序列上的 Elo 分数，文本说明带 CoT 的 RL-CAI 比不带 CoT 的 RL-CAI 略微更不 helpful 但略微更 harmless。作者还报告了 RL-CAI 标签在新 HHH 评估上具有合理校准性。

历史影响

宪法 AI 使 RLAIF 成为 RLHF 的一个具体替代或补充方案。从历史上看，它将部分对齐监督从大规模人工标签数据集转移到模型中介的 critique、revision 和偏好标注。本文重要的计算举措不在于人类完全消失；在这一设置中 helpfulness 标签仍然来自人类。举措在于 harmlessness 监督可以通过模型推理和一部紧凑的宪法进行扩展。

它还使对齐目标更可检查。宪法不是大规模隐式的人工偏好标签集合，而是一组简短可编辑的原则，思维链 critique 提供了一些训练时判断的可视性。这影响了后来的 AI 反馈、自我 critique、红队自动化和宪法/系统 prompt 风格控制等工作。

局限

硬件未披露，因此设备级的计算核算不可用。该方法很可能需要大量的隐藏推理和训练计算：每条红队 prompt 四个 critique-revision 样本、每条 helpfulness prompt 两个 helpfulness 样本、pair 生成、AI 偏好标注、偏好模型训练和 RL。确切的延迟、批处理和加速器内存约束无法从来源中恢复。

监督来源也是一个局限。AI 标签可能继承模型的盲点，宪法原则是手工设计的，偏好模型可能被 Goodhart 化。论文观察到了过训练行为，如过于苛刻或样板化的回复。Harmlessness/helpfulness 权衡仍然存在：修订改善了 harmlessness 分数，而纯 helpfulness 可能下降，CoT 反馈似乎略微更 harmless 但略微更不 helpful。

链接

计算范式：history/compute_regimes/inference_time_compute_post_training/README.md
来源 PDF 和抽取文本见上述元数据。
队列状态：read_complete。
方法索引：rlhf
对照更新：compute bottlenecks