Self-Consistency Improves Chain of Thought Reasoning in Language Models
Self-Consistency Improves Chain of Thought Reasoning in Language Models - 中文验证版
英文原始依据卡片:self_consistency_2022.md
状态:已翻译。
元数据
- 阅读状态:read complete
- 年份:2022
- 计算范式:推理阶段计算与后训练 (
inference_time_compute_post_training) - PDF:2022-self_consistency_2022.pdf
- 抽取文本:2022-self_consistency_2022.txt
- PDF URL:https://arxiv.org/pdf/2203.11171.pdf
- OpenAlex:
- 引用计数来源/日期:
- 引用计数:
- 阅读卡创建日期:2026-06-15
计算设置
本文的计算是刻意仅推理的。作者指出"对于所有四个语言模型,我们仅进行基于 prompting 的推理";自洽性实验中没有模型训练或微调。本地文本给出了具体的 serving 设置:UL2-20B 在 TPU v3 上以 2x2 配置运行,即 4 个 chip 和 8 个核;LaMDA-137B 在 TPU v3 上以 8x8 配置运行,即 64 个 chip 和 128 个核;PaLM-540B 在 TPU v4 上以 4x4x12 配置运行,即 192 个 chip 和 384 个核。GPT-3/Codex 实验通过公共 API 进行,因此底层设备和 serving 拓扑未报告。
论文还给出了 wall-clock 规模。对约 1,000 个示例,大多数作业在 UL2 和 LaMDA-137B 上花费 1 到 4 小时,在 PaLM-540B 上花费 2 到 12 小时;常识任务可能运行更久但仍在 2 天以内。默认设置是独立地从 decoder 采样 40 个输出,在 10 次运行上平均。UL2 和 LaMDA 使用温度 0.5 和 top-k 40;PaLM 使用温度 0.7 和 top-k 40;GPT-3 使用温度 0.7 无 top-k 截断和 128 最大 token。
瓶颈
瓶颈是单路径解码的脆弱性。思维链 prompting 使大语言模型暴露出中间推理,但贪心解码仍然将答案提交给 token 分布中的一条轨迹。单次算术失误、错误前提或局部可能但全局错误的推导成为最终答案。更大的模型降低了这种失败率,但仅靠规模在桌面上留下了可避免的准确率。
自洽性将推理准确率重新框架化为采样和聚合问题。昂贵的资源是重复的前向解码,模型范围从 20B 到 540B 参数。这将实际瓶颈转变为可批处理的推理吞吐量、输出 token 预算、样本多样性和答案归一化。在 PaLM-540B 上,约 1,000 个示例的 40 个链已经是一个数小时的 TPU v4 作业,因此该方法相对于重新训练是廉价的,但绝对值上不便宜。
方法适配
该方法通过将模型用作自集成来将思维链适配到加速器推理范式。它采样多样化的推理路径,从每条路径解析答案,并选择最自洽的最终答案。在工程术语中,这将一次长的自回归解码转换为许多可以跨加速器核并行、跨 prompt 批处理或与延迟进行权衡的独立解码。
这对 TPU/GPU serving 硬件是适用的,因为每条采样路径在聚合之前是独立的。最终的多数投票相对于前向传递在 CPU 上是廉价的。采样参数简单且与架构无关,因此相同的方案可以在 API 托管的 GPT-3、TPU v3 LaMDA/UL2 和 TPU v4 PaLM 上运行,无需重新训练。代价是采样计数和生成 token 的近线性扩展。
该方法还将部分瓶颈转移到解析上。算术任务通常可以归一化一个数值最终答案,而常识任务需要字符串或选项归一化。收益取决于一个任务格式,其中许多独立链可以归约到相同的答案空间。
证据
主要实验报告自洽性在每个问题 40 个采样输出的 10 次运行上平均。在 PaLM-540B 上,表 2 报告 GSM8K 准确率从贪心思维链的 56.5 提高到自洽性的 74.4,AQuA 从 35.8 到 48.3,SVAMP 从 79.0 到 86.6。在 GPT-3 code-davinci-002 上,GSM8K 从 60.1 提高到 78.0,AQuA 从 39.8 到 52.0,SVAMP 从 75.8 到 86.8。PaLM-540B 还在 ARC-Challenge 上从 85.2 提高到 88.7,在 StrategyQA 上从 65.8 提高到 70.8。
表 1 在 PaLM-540B 上比较了聚合规则。直接多数投票在 GSM8K 上达到 74.4,MultiArith 99.3,AQuA 48.3,SVAMP 86.6,接近归一化加权求和,远优于非归一化变体。昂贵的部分在于产生足够多的多样化样本;复杂的概率加权并非主要的收益来源。
附录还将此推理计算旋钮与 prompt 集成进行了比较。在 GSM8K 上,40 个不同 prompt 集得分 58.9,40 个 prompt 排列得分 59.6,而 40 条路径的自洽性得分 74.4。结果支持论文的核心主张:来自一个强模型的多次采样推理路径比仅仅围绕一次贪心解码变化 prompt 更有价值。
历史影响
自洽性是推理阶段计算作为 LLM 推理的方法变量的早期、清晰的例子。它不需要梯度更新、任务特定标签、验证器训练或架构更改。相反,它将解码样本数变成一个可复现的准确率旋钮:模型可以保持固定,而推理预算、采样策略和聚合策略可以变化。
从历史上看,这张卡片位于思维链 prompting 和后来的搜索/验证器系统之间。它表明一个大型密集模型已经包含许多合理的解决轨迹,并且 serving 系统可以通过采样和投票恢复可靠性。一旦模型训练过于昂贵而无法重复,推理 fleet 成为能力提升的第二计算面。
局限
计算成本大致随采样路径数和生成 token 数线性缩放。报告的 PaLM-540B 运行已经对每个任务花费数小时,常识工作负载可能接近两天。这使得自洽性对基准测试和高价值查询有吸引力,但对低延迟 serving 不太有吸引力,除非仔细设计批处理和早期停止。
该方法还依赖于清晰的答案空间。当最终答案可解析、归一化和比较时,它工作得最好。多个错误的链可能达成一致,特别是在有偏 prompt 或模糊问题上,模型概率的校准程度不足以可靠区分正确和错误的链。GPT-3 硬件隐藏在公共 API 之后,因此只有 TPU 侧的计算设置在论文中是透明的。
链接
- 计算范式:
history/compute_regimes/inference_time_compute_post_training/README.md - 来源 PDF 和抽取文本见上述元数据。
- 队列状态:
read_complete。 - 方法索引:inference_time_reasoning
- 对照更新:compute bottlenecks