Self-Consistency Improves Chain of Thought Reasoning in Language Models - 中文验证版

英文原始依据卡片：self_consistency_2022.md

状态：已翻译。

元数据

阅读状态：read complete
年份：2022
计算范式：推理阶段计算与后训练 (inference_time_compute_post_training)
PDF：2022-self_consistency_2022.pdf
抽取文本：2022-self_consistency_2022.txt
PDF URL：https://arxiv.org/pdf/2203.11171.pdf
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期：2026-06-15

计算设置

本文的计算是刻意仅推理的。作者指出"对于所有四个语言模型，我们仅进行基于 prompting 的推理"；自洽性实验中没有模型训练或微调。本地文本给出了具体的 serving 设置：UL2-20B 在 TPU v3 上以 2x2 配置运行，即 4 个 chip 和 8 个核；LaMDA-137B 在 TPU v3 上以 8x8 配置运行，即 64 个 chip 和 128 个核；PaLM-540B 在 TPU v4 上以 4x4x12 配置运行，即 192 个 chip 和 384 个核。GPT-3/Codex 实验通过公共 API 进行，因此底层设备和 serving 拓扑未报告。

论文还给出了 wall-clock 规模。对约 1,000 个示例，大多数作业在 UL2 和 LaMDA-137B 上花费 1 到 4 小时，在 PaLM-540B 上花费 2 到 12 小时；常识任务可能运行更久但仍在 2 天以内。默认设置是独立地从 decoder 采样 40 个输出，在 10 次运行上平均。UL2 和 LaMDA 使用温度 0.5 和 top-k 40；PaLM 使用温度 0.7 和 top-k 40；GPT-3 使用温度 0.7 无 top-k 截断和 128 最大 token。

瓶颈

瓶颈是单路径解码的脆弱性。思维链 prompting 使大语言模型暴露出中间推理，但贪心解码仍然将答案提交给 token 分布中的一条轨迹。单次算术失误、错误前提或局部可能但全局错误的推导成为最终答案。更大的模型降低了这种失败率，但仅靠规模在桌面上留下了可避免的准确率。

自洽性将推理准确率重新框架化为采样和聚合问题。昂贵的资源是重复的前向解码，模型范围从 20B 到 540B 参数。这将实际瓶颈转变为可批处理的推理吞吐量、输出 token 预算、样本多样性和答案归一化。在 PaLM-540B 上，约 1,000 个示例的 40 个链已经是一个数小时的 TPU v4 作业，因此该方法相对于重新训练是廉价的，但绝对值上不便宜。

方法适配

该方法通过将模型用作自集成来将思维链适配到加速器推理范式。它采样多样化的推理路径，从每条路径解析答案，并选择最自洽的最终答案。在工程术语中，这将一次长的自回归解码转换为许多可以跨加速器核并行、跨 prompt 批处理或与延迟进行权衡的独立解码。

这对 TPU/GPU serving 硬件是适用的，因为每条采样路径在聚合之前是独立的。最终的多数投票相对于前向传递在 CPU 上是廉价的。采样参数简单且与架构无关，因此相同的方案可以在 API 托管的 GPT-3、TPU v3 LaMDA/UL2 和 TPU v4 PaLM 上运行，无需重新训练。代价是采样计数和生成 token 的近线性扩展。

该方法还将部分瓶颈转移到解析上。算术任务通常可以归一化一个数值最终答案，而常识任务需要字符串或选项归一化。收益取决于一个任务格式，其中许多独立链可以归约到相同的答案空间。

证据

主要实验报告自洽性在每个问题 40 个采样输出的 10 次运行上平均。在 PaLM-540B 上，表 2 报告 GSM8K 准确率从贪心思维链的 56.5 提高到自洽性的 74.4，AQuA 从 35.8 到 48.3，SVAMP 从 79.0 到 86.6。在 GPT-3 code-davinci-002 上，GSM8K 从 60.1 提高到 78.0，AQuA 从 39.8 到 52.0，SVAMP 从 75.8 到 86.8。PaLM-540B 还在 ARC-Challenge 上从 85.2 提高到 88.7，在 StrategyQA 上从 65.8 提高到 70.8。

表 1 在 PaLM-540B 上比较了聚合规则。直接多数投票在 GSM8K 上达到 74.4，MultiArith 99.3，AQuA 48.3，SVAMP 86.6，接近归一化加权求和，远优于非归一化变体。昂贵的部分在于产生足够多的多样化样本；复杂的概率加权并非主要的收益来源。

附录还将此推理计算旋钮与 prompt 集成进行了比较。在 GSM8K 上，40 个不同 prompt 集得分 58.9，40 个 prompt 排列得分 59.6，而 40 条路径的自洽性得分 74.4。结果支持论文的核心主张：来自一个强模型的多次采样推理路径比仅仅围绕一次贪心解码变化 prompt 更有价值。

历史影响

自洽性是推理阶段计算作为 LLM 推理的方法变量的早期、清晰的例子。它不需要梯度更新、任务特定标签、验证器训练或架构更改。相反，它将解码样本数变成一个可复现的准确率旋钮：模型可以保持固定，而推理预算、采样策略和聚合策略可以变化。

从历史上看，这张卡片位于思维链 prompting 和后来的搜索/验证器系统之间。它表明一个大型密集模型已经包含许多合理的解决轨迹，并且 serving 系统可以通过采样和投票恢复可靠性。一旦模型训练过于昂贵而无法重复，推理 fleet 成为能力提升的第二计算面。

局限

计算成本大致随采样路径数和生成 token 数线性缩放。报告的 PaLM-540B 运行已经对每个任务花费数小时，常识工作负载可能接近两天。这使得自洽性对基准测试和高价值查询有吸引力，但对低延迟 serving 不太有吸引力，除非仔细设计批处理和早期停止。

该方法还依赖于清晰的答案空间。当最终答案可解析、归一化和比较时，它工作得最好。多个错误的链可能达成一致，特别是在有偏 prompt 或模糊问题上，模型概率的校准程度不足以可靠区分正确和错误的链。GPT-3 硬件隐藏在公共 API 之后，因此只有 TPU 侧的计算设置在论文中是透明的。

链接

计算范式：history/compute_regimes/inference_time_compute_post_training/README.md
来源 PDF 和抽取文本见上述元数据。
队列状态：read_complete。
方法索引：inference_time_reasoning
对照更新：compute bottlenecks