Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

下载 PDF

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models - 中文验证版

英文原始依据卡片:cot_2022.md

状态:已翻译。

元数据

计算设置

论文明确这是仅推理的计算:没有进行微调。附录报告了 LaMDA-137B 在 TPU v3 上以 8x8 配置推理,即 64 个 chip 和 128 个核。PaLM-540B 推理在 TPU v4 上以 4x4x12 配置进行,即 192 个 chip 和 384 个核。GPT-3 实验使用公共 API,涵盖 text-ada-001、text-babbage-001、text-curie-001 和 text-davinci-002,论文将其映射到约 350M、1.3B、6.7B 和 175B 模型规模。Codex 使用 OpenAI API 的 code-davinci-002。其他被评估的模型系列包括 LaMDA 在 422M、2B、8B、68B 和 137B;PaLM 在 8B、62B 和 540B;以及 UL2 在 20B。

prompt 格式与硬件一样是计算设置的一部分。对于算术任务,作者手工编写了八个包含输入、思维链和最终输出的 few-shot exemplar;AQuA 使用四个训练集 exemplar,因为它是选择题。解码是贪心的。对于 LaMDA,结果在五个随机 exemplar 顺序上平均;对于其他系统,论文使用一个 exemplar 顺序以节省计算。这意味着实验资源不是训练集群,而是使用更长的 prompt 和更长的生成输出进行重复的大模型前向传递。

瓶颈

瓶颈是推理的结构。标准 few-shot prompting 要求一个巨大的冻结模型直接从问题映射到答案,这给模型很少的机会在中间状态上花费顺序计算。对于多步算术、符号操作和常识推理,这种直接回答格式未能充分利用 decoder 中已有的自回归计算。

思维链 prompting 将约束从训练新模型转移到为更多且更好组织的推理 token 付费。论文明确将思维链框架化为一种将额外计算分配给需要更多推理步骤的问题的方式。这种额外计算不是免费的:更长的 prompt 消耗更多上下文,更长的生成消耗更多解码时间,而解码是顺序的,因为每个输出 token 依赖之前的 token。硬件后果是,一个 TPU/API 托管的 100B+ 模型必须为每个查询生成更多 token。

规模也是一个瓶颈。论文反复发现思维链是一种涌现能力:中小模型通常生成流畅但不合逻辑的轨迹,而增益仅在最大评估模型附近可靠出现。因此该方法依赖于昂贵的模型副本和推理基础设施才能变得有用。

方法适配

适配是刻意最小化的:保持模型固定,改变 prompt 的形状。每个 exemplar 成为输入、自然语言中间步骤和最终输出的三元组。在测试时,模型预期会先生成类似推理依据(rationale)的序列再生成答案来延续这种模式。这将自回归解码变成一张草稿纸,使用输出 token 作为分解、算术子步骤、状态追踪和语义解释的临时工作空间。

论文的消融实验表明,适配不仅仅是"更多 token"。仅方程式的 prompting 对一些较简单的任务有帮助,但对 GSM8K 无效,其中题目叙述的语义解析是困难的。"仅可变计算"条件——模型发出点号以匹配方程的长度——表现大约与基线相同。在答案之后放推理也大约与基线相同。因此有用的计算结构是在答案之前的顺序自然语言推理,而不仅仅是额外的解码长度或相关知识的潜在激活。

该方法还通过避免梯度更新来适配推理经济学。少数人工编写的 exemplar 可以在数据集之间复用,一个检查点可以覆盖算术、常识和符号任务。与有推理依据(rationale)监督的微调相比,训练数据成本很小;与标准 prompting 相比,serving 账单上升。

证据

标题算术结果是 PaLM-540B 在 GSM8K 上:标准 prompting 获得 17.9% 准确率,思维链达到 56.9%;如果对生成的方程事后应用外部计算器,达到 58.6%。GPT-3 175B 在 GSM8K 上从 15.6% 提高到 46.9%,Codex 从 19.7% 提高到 63.1%。在 MAWPS 上,PaLM-540B 从 79.2% 提高到 93.3%,Codex 从 78.7% 提高到 92.6%。同一表格显示 UL2-20B 和小于 10B 的 LaMDA/GPT/PaLM 模型几乎没有受益,甚至可能变差,支持规模阈值的说法。

收益不限于小学算术。在常识任务上,PaLM-540B 在 StrategyQA 上从 68.6% 提高到 77.8%,在 Date Understanding 上从 49.0% 提高到 65.3%,在 Sports Understanding 上从 80.5% 提高到 95.4%,在 SayCan 上从 80.8% 提高到 91.7%。在符号长度泛化上,PaLM-540B 在分布外的三名称最后一个字母拼接上从 0.2% 提高到 94.8%,在四名称拼接上从 0.0% 提高到 63.0%。LaMDA-137B 显示出类似的定性模式,例如在两名称最后一个字母拼接上从 5.8% 到 77.5%。

论文还检查了生成的轨迹。对于 LaMDA-137B 回答正确的 50 个随机 GSM8K 例子,除两条链外,所有链在逻辑和数学上都是正确的。对于 50 个错误答案,46% 的链在作者的分类下"几乎正确",通常需要计算器修正、符号修正或缺失步骤。将 PaLM 从 62B 扩展到 540B 修复了相当一部分缺失步骤和语义理解错误。

历史影响

这篇论文使草稿纸 token 成为主流的计算结构。在此之前,推理改善通常视为训练目标、符号模块、验证器或专门的数据集。思维链表明,一个已经训练好的大型模型可以在 prompt 请求中间文本时暴露出额外的能力,使推理阶段计算成为与参数数量和预训练 token 并列的一等。

从历史上看,这直接打开了通往自洽性、验证器引导推理、工具使用、编程思维 prompting、思维树搜索和后来的 agent 工作流等方向的道路。所有这些方法都详细阐述了同一个基本思想:每个问题花费更多结构化的推理计算,然后选择或使用结果。

局限

论文谨慎地指出,思维链并不是网络正在忠实推理的证明。生成的路径可能是错误的,可能偶然到达正确答案,并且在轨迹正确性难以验证的任务上可能具有误导性。该方法还使 serving 更加昂贵,因为它需要大模型和更长的生成,作者明确将真实 serving 成本标记为一个局限。

Few-shot 标注成本对于 prompting 来说很低,但对于微调大型推理依据(rationale)数据集来说会变得昂贵。Prompt 敏感性即使论文报告了对若干 exemplar 来源的鲁棒性,也仍然非零。最后,由于大多数最强的系统是专有的或 API 托管的,可复现性依赖于提供的 prompt、记录的输出和附录中有限的硬件细节,而不是完整的模型访问。

链接

  • 计算范式:history/compute_regimes/inference_time_compute_post_training/README.md
  • 来源 PDF 和抽取文本见上述元数据。
  • 队列状态:read_complete
  • 方法索引:inference_time_reasoning
  • 对照更新:compute bottlenecks