ReAct: Synergizing Reasoning and Acting in Language Models - 中文验证版

英文原始依据卡片：react_2022.md

状态：已翻译。

元数据

阅读状态：read complete
年份：2022
计算范式：推理阶段计算与后训练 (inference_time_compute_post_training)
PDF：2022-react_2022.pdf
抽取文本：2022-react_2022.txt
PDF URL：https://arxiv.org/pdf/2210.03629.pdf
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期：2026-06-15

计算设置

论文未列出确切的加速器硬件、主机数量或 wall-clock 成本。其主要设置是一个在推理时使用的冻结大语言模型：来源指出主要实验使用 few-shot 上下文示例 prompt PaLM-540B，附录 A.1 报告了使用贪婪解码的 GPT-3 text-davinci-002 实验。根据项目规则，PaLM 运行推断使用 Google 的 2022 年时代 TPU 支持的 PaLM serving/训练基础设施，而 GPT-3 运行推断使用 OpenAI 托管的 API 推理。这些是从模型/提供商时代的推断，而非论文中的硬件披露。

报告的梯度训练组件小于主要的 PaLM-540B prompting 设置。ReAct 引导了 3,000 条具有正确答案的轨迹，并对 PaLM-8B 和 PaLM-62B 进行微调，以解码包含思考、行动和观察的完整轨迹。附录 B.1 指出所有微调使用 batch size 64；在 PaLM-8B 上，ReAct 和 Act 微调 4,000 步，而 Standard 和 CoT 微调 2,000 步；在 PaLM-62B 上，ReAct 和 Act 再次使用 4,000 步，而 Standard 和 CoT 使用 1,000 步。因此计算设置主要是工具/环境循环中的推理时 token 生成，加上对较小 PaLM 模型的一个适度后训练遍。

瓶颈

ReAct 针对纯思维链留下的一个瓶颈：静态采样推理无法获取缺失的事实、检查环境或修复一个糟糕的搜索路径。一旦允许行动，限制资源从单次前向生成变为一个有界的思考、行动和观察 token 序列。该序列消耗上下文窗口，引起工具/环境延迟，并创建一个分支搜索问题，因为每次行动改变下一次观察。

论文通过限制 Wikipedia 交互范围使这一点具体化：如果 ReAct 未能返回答案，它在 7 个 HotpotQA 步骤或 5 个 FEVER 步骤后退回 CoT 自洽性，作者报告更多步骤并未改善性能。在 ALFWorld 中，一个专家策略可能需要超过 50 步和超过 50 个位置，因此一个经 prompt 的 LLM 必须花费稀缺的上下文和生成来追踪子目标。在 WebShop 中，环境包含 118 万个产品和 12k 条人类指令，因此搜索重新表述和产品选项过滤成为推理阶段计算而非学习的参数化记忆。

方法适配

该方法通过强制轨迹格式暴露中间状态，将语言模型适配到此计算范式。对于 HotpotQA 和 FEVER，作者手动编写了 ReAct 格式的 exemplar：HotpotQA 6 个训练案例，FEVER 3 个，每条轨迹交替思考、行动和观察。思考被用于分解问题、从 Wikipedia 观察中提取证据、进行算术或常识推理以及重新表述搜索。行动限制为一个简单的 Wikipedia API，因此模型仅支付短文本观察，而非完整网页或密集检索栈。

对于更长视野的决策任务，适配更稀疏。论文指出 ALFWorld 和 WebShop 可能涉及许多行动，因此思考仅需出现在最相关的位置。这减少了 token 开销，同时为子目标追踪保留了一个工作记忆通道。ReAct 还与 CoT-SC 组合作为计算路由器：一个方向在内部知识自洽性弱时使用 ReAct；另一个在行动循环停滞时使用 CoT-SC 作为后备。混合方法在报告图中使用仅 3-5 个样本达到 CoT-SC 以 21 个样本的性能，展示了外部工具计算与重复内部采样之间的直接交换。

证据

在 PaLM-540B prompting 上，表 1 报告 HotpotQA 精确匹配 ReAct 为 27.4，Act 为 25.7；在 FEVER 上，ReAct 达到 60.9 准确率，Act 为 58.9。混合方法更强：ReAct -> CoT-SC 达到 35.1 HotpotQA EM，而 CoT-SC -> ReAct 达到 64.6 FEVER 准确率。失败分析是计算结构的：ReAct 比 CoT 有更少的幻觉失败，因为外部观察锚定了轨迹，但它有更多的推理错误，因为固定的行动/观察结构可能将模型困在重复或糟糕选择的搜索中。

具身/文本环境证据更鲜明。在 ALFWorld 上，ReAct best-of-6 在任务中达到 71% 的成功率，相比之下 Act best-of-6 为 45%，BUTLER best-of-8 为 37%；BUTLER 是一个在每种任务类型上以 100k 专家轨迹训练出的 imitation-learning 基线。在 WebShop 上，ReAct 达到 66.6 的分数和 40.0% 的成功率，相比之下 Act 为 62.3/30.1，imitation learning 为 59.9/29.1，IL+RL 为 62.4/28.7。这些数字支持论文的主张：在环境是语言密集型时，在自然语言子目标推理上花费推理可以击败更重的任务特定训练。

微调证据展示了相同结构的后训练面。仅用 3,000 个引导示例，PaLM-8B 上的微调 ReAct 优于所有 PaLM-62B prompting 方法，PaLM-62B 上的微调 ReAct 在报告的 HotpotQA 缩放图中优于所有 PaLM-540B prompting 方法。这不是声称 8B 通常比 540B 更强；这是证据表明在这种特定的工具使用行为上，训练轨迹接口可以替代部分规模。

历史影响

ReAct 帮助将工具使用从外部包装器转变为一等的解码模式：模型生成推理、发出行动、接收观察并继续。其历史角色不是一个新的加速器或分布式训练技巧，而是一种新的计算放置。不是将所有预算花费在参数或隐藏链的样本上，而是将 token 花费在与搜索 API 和文本环境的可恢复交互上。该模式直接预示了后来的结合规划器状态、工具调用、检索、执行反馈和后备采样的 LLM agent。

局限

本文的局限也来自这种计算结构。硬件和 serving 成本未披露，因此卡片无法为 PaLM-540B 或 GPT-3 的使用附加精确的设备成本。ReAct 对行动视野选择敏感：更多 Wikipedia 步骤在选定上限后没有帮助，坏或空的搜索结果可能使整个轨迹脱轨。Prompted 轨迹必须适配上下文，每次观察都与推理 token 竞争内存。在交互式环境中，工具延迟和环境 API 设计成为模型有效推理预算的一部分。最后，ReAct 不解决低级感知或控制问题；当环境可以表示为紧凑的文本观察和有效的文本行动时，它工作得最好。

链接

计算范式：history/compute_regimes/inference_time_compute_post_training/README.md
来源 PDF 和抽取文本见上述元数据。
队列状态：read_complete。
方法索引：inference_time_reasoning、tool_use
对照更新：compute bottlenecks