Tree of Thoughts: Deliberate Problem Solving with Large Language Models
Tree of Thoughts: Deliberate Problem Solving with Large Language Models - 中文验证版
英文原始依据卡片:tree_of_thoughts_2023.md
状态:已翻译。
元数据
- 阅读状态: read complete
- 年份: 2023
- 计算范式: 推理阶段计算与后训练 (
inference_time_compute_post_training) - PDF: 2023-tree_of_thoughts_2023.pdf
- 抽取文本: 2023-tree_of_thoughts_2023.txt
- OpenAlex:
- 引用计数来源/日期:
- 引用计数:
- 阅读卡创建日期: 2026-06-15
计算设置
论文未披露硬件。实验主要使用 Chat Completion 模式 GPT-4 获得主要结果,GPT-3.5-turbo 用于附录比较,因此加速器设备、batch size 和推理拓扑被隐藏在 API 推理后。根据项目规则,仅推断为 2023 年 API 托管的前沿模型推理,运行于提供商数据中心加速器上,而非论文指定的 GPU 或 TPU。
论文确实提供了具体的推理成本代理。实验在 2023 年 5 月 5 日至 5 月 16 日之间运行,GPT-4 采样温度为 0.7,除非另有说明。对于 Game of 24,ToT 每个案例使用约 5.5K 生成 tokens 和 1.4K prompt tokens,成本约 $0.74。Best-of-100 CoT 使用 6.7K 补全和 2.2K prompt tokens,成本 $0.47。对于创意写作,ToT 使用约 4K 补全和 2.9K prompt tokens,每案例约 $0.32,约为 IO/CoT token 和美元成本的 5 倍。
瓶颈
瓶颈不是模型训练,而是推理时对推理状态的搜索。标准输入输出 prompting 和链式思维解码生成单条从左到右的轨迹。如果早期步骤出错,后续 tokens 继承错误。Game of 24 错误分析使这一点具体化:约 60% 的 CoT 样本在第一步后失败,实际上在第一个简单算术操作后。重复 CoT 100 次有帮助,但它是一个扁平采样策略,没有局部剪枝或回溯。
思维树将瓶颈从单 pass 生成转移到搜索控制。它花费 API 调用用于提议候选思维、评估或投票部分状态、剪除坏分支并维护一个有界前沿。计算单元变为思维树中的节点扩展。该方法可以花费 5 到 100 倍于 CoT 的生成 tokens,但将它们用于结构化探索而非独立重启。
该方法也是 prompt 带宽密集型的。评估 prompts 包括问题、当前状态、候选思维以及用于价值或投票的指令。随着搜索增长,prompt tokens 可以成为成本的实质部分,特别是对于 BFS 中评估许多状态,以及 DFS 中约束被反复转换为 prompt 的情况。
方法适配
该方法通过在推理周围引入外部控制器来适配冻结的 LM 以进行深思熟虑的推理。状态是原始输入加上一系列思维。一个思维可以按任务调整大小:Game of 24 是中间方程,创意写作是简短写作计划,Mini Crosswords 是单词放置。这是一项计算适配,因为思维粒度决定了分支因子、prompt 长度、评估器成本以及剪枝是否可行。
两种生成模式适配不同的搜索空间。独立采样适用于丰富空间如写作计划,其中多样性很重要。顺序提议 prompts 适用于受约束空间如算术步骤或填字单词,在一个上下文中提议多个候选减少重复。评估也是模块化的:价值 prompts 独立评分状态为 sure/maybe/impossible 或在一个标量尺度上,而投票 prompts 比较多个状态并选择最有前途的。
搜索算法根据深度和分支进行选择。Game of 24 和创意写作使用有界宽度的广度优先搜索,因为树较浅。在 Game of 24 中,有三个思维步,论文每步保留最佳 b = 5 个候选,每个思维采样价值三次。创意写作使用深度 2:采样五个计划,投票五次,然后从最佳计划采样五个段落并再次投票。Mini Crosswords 使用深度优先搜索,因为任务可能涉及多达十步填词;剪枝和回溯将搜索保持在 100 步限制内。
这是推理阶段计算作为算法预算。用户可以改变 beam size、投票数、模型选择、prompt 风格、提前停止或剪枝阈值,在不重训 LM 的情况下以成本换精度。
证据
论文最强结果是在 100 道 Game of 24 难题(索引 901-1000,来自 4nums.com)上。IO prompting 达到 7.3% 成功率,CoT 4.0%,CoT self-consistency 100 样本 9.0%,IO plus refine 27%。Best-of-100 IO 达到 33%,best-of-100 CoT 达到 49%。宽度为 1 的 ToT 达到 45%,宽度为 5 的 ToT 达到 74%。这是计算结构结果:与 best-of-100 CoT 相似或更低的补全 token 预算,在组织为局部搜索时有效得多。
创意写作显示了一个更软的权衡:GPT-4 连贯性评分给出 IO 6.19、CoT 6.93、ToT 7.56,人类在 41 个案例中偏好 ToT 胜过 CoT,而 CoT 为 21。Mini Crosswords 显示了回溯的重要性:IO 得到 14% 单词和 0 个解决游戏;CoT 得到 15.6% 单词和 1 个游戏;ToT 得到 60% 单词和 20 个游戏中的 4 个。移除剪枝将单词成功率降至 41.5%,移除回溯则降至 20%。
附录测试了模型替换。在 Game of 24 上,GPT-3.5 ToT 达到 19%,而 GPT-4 ToT 为 74%。GPT-4 生成加 GPT-3.5 评估达到 64%,而 GPT-3.5 生成加 GPT-4 评估达到 31%,表明生成质量是主要瓶颈,更便宜的评估器可能可行。
历史影响
ToT 使显式测试时搜索成为主流 LLM 方法。它将经典 AI 搜索理念转化为 API 时代模式:生成候选思维,用相同或另一个 LM 评估它们,并在模型外部使用 BFS/DFS 控制逻辑。从历史上看,这帮助区分了"权重中的推理能力"和"通过花费推理预算获得的推理"。
论文还使成本核算成为推理评估的一部分。其 token 和美元表显示更好的性能通常通过花费更多推理获得,但并非所有花费都是等价的。结构化搜索在展示任务上击败独立采样,因为它将计算分配给分支选择、前瞻和剪枝。
局限
硬件未报告,API 设置隐藏了批处理、延迟和推理细节。token/美元估算因此是本地来源中唯一可靠的计算测量。ToT 可能昂贵:作者声明,取决于 prompts 和搜索算法,它可能需要 5 到 100 倍于 CoT 的生成 tokens。它还要求任务特定的思维分解、提议 prompts、评估器和搜索限制。
该方法在中间状态可被评估时效果最佳。对于 GPT-4 已能用 CoT 解决的任务、外部知识是瓶颈的任务,或价值 prompts 充满噪声的开放式任务,其用处不那么明确。
链接
- 计算范式:
history/compute_regimes/inference_time_compute_post_training/README.md - 来源 PDF 和抽取文本见上方元数据。
- Queue 状态:
read_complete。 - 方法索引:inference_time_reasoning、search
- 对照更新:compute bottlenecks