Tree of Thoughts: Deliberate Problem Solving with Large Language Models - 中文验证版

英文原始依据卡片：tree_of_thoughts_2023.md

状态：已翻译。

元数据

阅读状态： read complete
年份： 2023
计算范式： 推理阶段计算与后训练 (inference_time_compute_post_training)
PDF： 2023-tree_of_thoughts_2023.pdf
抽取文本： 2023-tree_of_thoughts_2023.txt
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期： 2026-06-15

计算设置

论文未披露硬件。实验主要使用 Chat Completion 模式 GPT-4 获得主要结果，GPT-3.5-turbo 用于附录比较，因此加速器设备、batch size 和推理拓扑被隐藏在 API 推理后。根据项目规则，仅推断为 2023 年 API 托管的前沿模型推理，运行于提供商数据中心加速器上，而非论文指定的 GPU 或 TPU。

论文确实提供了具体的推理成本代理。实验在 2023 年 5 月 5 日至 5 月 16 日之间运行，GPT-4 采样温度为 0.7，除非另有说明。对于 Game of 24，ToT 每个案例使用约 5.5K 生成 tokens 和 1.4K prompt tokens，成本约 $0.74。Best-of-100 CoT 使用 6.7K 补全和 2.2K prompt tokens，成本 $0.47。对于创意写作，ToT 使用约 4K 补全和 2.9K prompt tokens，每案例约 $0.32，约为 IO/CoT token 和美元成本的 5 倍。

瓶颈

瓶颈不是模型训练，而是推理时对推理状态的搜索。标准输入输出 prompting 和链式思维解码生成单条从左到右的轨迹。如果早期步骤出错，后续 tokens 继承错误。Game of 24 错误分析使这一点具体化：约 60% 的 CoT 样本在第一步后失败，实际上在第一个简单算术操作后。重复 CoT 100 次有帮助，但它是一个扁平采样策略，没有局部剪枝或回溯。

思维树将瓶颈从单 pass 生成转移到搜索控制。它花费 API 调用用于提议候选思维、评估或投票部分状态、剪除坏分支并维护一个有界前沿。计算单元变为思维树中的节点扩展。该方法可以花费 5 到 100 倍于 CoT 的生成 tokens，但将它们用于结构化探索而非独立重启。

该方法也是 prompt 带宽密集型的。评估 prompts 包括问题、当前状态、候选思维以及用于价值或投票的指令。随着搜索增长，prompt tokens 可以成为成本的实质部分，特别是对于 BFS 中评估许多状态，以及 DFS 中约束被反复转换为 prompt 的情况。

方法适配

该方法通过在推理周围引入外部控制器来适配冻结的 LM 以进行深思熟虑的推理。状态是原始输入加上一系列思维。一个思维可以按任务调整大小：Game of 24 是中间方程，创意写作是简短写作计划，Mini Crosswords 是单词放置。这是一项计算适配，因为思维粒度决定了分支因子、prompt 长度、评估器成本以及剪枝是否可行。

两种生成模式适配不同的搜索空间。独立采样适用于丰富空间如写作计划，其中多样性很重要。顺序提议 prompts 适用于受约束空间如算术步骤或填字单词，在一个上下文中提议多个候选减少重复。评估也是模块化的：价值 prompts 独立评分状态为 sure/maybe/impossible 或在一个标量尺度上，而投票 prompts 比较多个状态并选择最有前途的。

搜索算法根据深度和分支进行选择。Game of 24 和创意写作使用有界宽度的广度优先搜索，因为树较浅。在 Game of 24 中，有三个思维步，论文每步保留最佳 b = 5 个候选，每个思维采样价值三次。创意写作使用深度 2：采样五个计划，投票五次，然后从最佳计划采样五个段落并再次投票。Mini Crosswords 使用深度优先搜索，因为任务可能涉及多达十步填词；剪枝和回溯将搜索保持在 100 步限制内。

这是推理阶段计算作为算法预算。用户可以改变 beam size、投票数、模型选择、prompt 风格、提前停止或剪枝阈值，在不重训 LM 的情况下以成本换精度。

证据

论文最强结果是在 100 道 Game of 24 难题（索引 901-1000，来自 4nums.com）上。IO prompting 达到 7.3% 成功率，CoT 4.0%，CoT self-consistency 100 样本 9.0%，IO plus refine 27%。Best-of-100 IO 达到 33%，best-of-100 CoT 达到 49%。宽度为 1 的 ToT 达到 45%，宽度为 5 的 ToT 达到 74%。这是计算结构结果：与 best-of-100 CoT 相似或更低的补全 token 预算，在组织为局部搜索时有效得多。

创意写作显示了一个更软的权衡：GPT-4 连贯性评分给出 IO 6.19、CoT 6.93、ToT 7.56，人类在 41 个案例中偏好 ToT 胜过 CoT，而 CoT 为 21。Mini Crosswords 显示了回溯的重要性：IO 得到 14% 单词和 0 个解决游戏；CoT 得到 15.6% 单词和 1 个游戏；ToT 得到 60% 单词和 20 个游戏中的 4 个。移除剪枝将单词成功率降至 41.5%，移除回溯则降至 20%。

附录测试了模型替换。在 Game of 24 上，GPT-3.5 ToT 达到 19%，而 GPT-4 ToT 为 74%。GPT-4 生成加 GPT-3.5 评估达到 64%，而 GPT-3.5 生成加 GPT-4 评估达到 31%，表明生成质量是主要瓶颈，更便宜的评估器可能可行。

历史影响

ToT 使显式测试时搜索成为主流 LLM 方法。它将经典 AI 搜索理念转化为 API 时代模式：生成候选思维，用相同或另一个 LM 评估它们，并在模型外部使用 BFS/DFS 控制逻辑。从历史上看，这帮助区分了"权重中的推理能力"和"通过花费推理预算获得的推理"。

论文还使成本核算成为推理评估的一部分。其 token 和美元表显示更好的性能通常通过花费更多推理获得，但并非所有花费都是等价的。结构化搜索在展示任务上击败独立采样，因为它将计算分配给分支选择、前瞻和剪枝。

局限

硬件未报告，API 设置隐藏了批处理、延迟和推理细节。token/美元估算因此是本地来源中唯一可靠的计算测量。ToT 可能昂贵：作者声明，取决于 prompts 和搜索算法，它可能需要 5 到 100 倍于 CoT 的生成 tokens。它还要求任务特定的思维分解、提议 prompts、评估器和搜索限制。

该方法在中间状态可被评估时效果最佳。对于 GPT-4 已能用 CoT 解决的任务、外部知识是瓶颈的任务，或价值 prompts 充满噪声的开放式任务，其用处不那么明确。

链接

计算范式：history/compute_regimes/inference_time_compute_post_training/README.md
来源 PDF 和抽取文本见上方元数据。
Queue 状态：read_complete。
方法索引：inference_time_reasoning、search
对照更新：compute bottlenecks