Voyager: An Open-Ended Embodied Agent with Large Language Models - 中文验证版

英文原始依据卡片：voyager_2023.md

状态：已翻译。

元数据

阅读状态： read complete
年份： 2023
计算范式： 推理阶段计算与后训练 (inference_time_compute_post_training)
PDF： 2023-voyager_2023.pdf
抽取文本： 2023-voyager_2023.txt
PDF URL： https://arxiv.org/pdf/2305.16291.pdf
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期： 2026-06-15

计算设置

论文未列出加速器硬件、GPU 类型、宿主机数量或 wall-clock 训练成本。它明确说明 Voyager 通过黑盒查询与 GPT-4 交互，绕过模型参数微调。实现使用 OpenAI gpt-4-0314 和 gpt-3.5-turbo-0301 API 进行文本补全，以及 text-embedding-ada-002 用于嵌入。温度设为 0，除了自动课程使用温度 0.1 以鼓励任务多样性。根据项目规则，LLM 计算被推断为 OpenAI 托管的推理，运行于提供商的 2023 年加速器基础设施上；论文本身未指出这些设备。

非 LLM 侧是一个本地或服务器端 Minecraft 模拟栈。来源称仿真环境基于 MineDojo 构建，并使用 Mineflayer JavaScript API 进行动作控制。因此 agent 不是在训练视觉策略或低级控制器。其昂贵循环是 API 推理加上在符号化/高层游戏接口中的执行：提议一个课程任务，通过嵌入检索技能，请求 GPT-4 编写代码，在 Minecraft 中执行该代码，反馈环境消息和解释器错误，并重复，直到 self-verification 接受该技能或系统在四轮代码生成后放弃。

瓶颈

瓶颈不是用于反向传播的加速器内存，而是在 API 成本下的长周期推理控制和仿真器反馈。Minecraft 探索需要对资源采集、合成前置条件、旅行、战斗和从失败代码中恢复进行排序。一次性 prompt 太脆弱，因为程序可能调用不存在的 API、使用无效的 Minecraft 物品，或在环境状态变化后失败。重复 GPT-4 调用可以修复这些错误，但每一轮都消耗延迟和付费推理。论文明确指出了成本：GPT-4 API 使用量很大，在其讨论中比 GPT-3.5 贵 15 倍。

第二个瓶颈是跨任务记忆。没有梯度更新，agent 需要一种方法来存储有用行为，以免反复重新发现如何合成或采集基本资源。普通 ReAct 式循环一次又一次地在相似计划上花费推理。Voyager 的开放式设定使这种浪费成为核心：成功是在 160 次 prompting 迭代中衡量的，因此可重用技能和避免不可能或不成熟任务的课程是进展与停滞的区别。

方法适配

Voyager 通过将动作选择转换为代码合成来适配。GPT-4 编写调用高层控制原语的 Mineflayer JavaScript 函数；MineDojo/Mineflayer 在环境中执行它们。这是一个计算设备选择，也是算法选择：系统将大模型推理花费在程序生成上，并使用普通程序执行进行重复的低层动作序列。一个成功的行为成为技能库中的可执行代码，而非上下文中更多的隐藏 tokens。

技能库是一个显式的内存/带宽优化。当新技能被验证时，Voyager 存储程序并通过 text-embedding-ada-002 生成的文本描述嵌入为其建立索引。对于新任务，GPT-3.5 帮助生成任务上下文，系统检索 top 5 相关技能用于 GPT-4 prompt。这使 prompt 聚焦于可重用过程而非所有过去经验。自动课程将 GPT-4 推理花费在选择匹配当前物品栏、已完成任务、失败任务和附近状态的任务上。迭代 prompting 随后使用三个反馈通道：来自 chat/logs 的环境反馈、来自解释器的执行错误，以及一个独立的 GPT-4 self-verification agent。四轮上限限制了失控推断。

证据

主要探索结果是设备相关的，因为 x 轴是 prompting 迭代而非梯度步数。Voyager 在 160 次 prompting 迭代内发现 63 种独特物品，报告为对比 agent 的 3.3 倍。它还比基线旅行了 2.3 倍更长的距离。在科技树表中，ReAct 和 Reflexion 在所有三次试验中均未能解锁木制、石制、铁制或钻石工具。AutoGPT 解锁了木制、石制和铁制工具但未能解锁钻石。Voyager 在 6 +/- 2 prompting 迭代内达到木制工具，在 11 +/- 2 达到石制工具，在 21 +/- 7 达到铁制工具，并且是唯一解锁钻石工具的方法，在三次试验中的一次中于 102 次迭代达到。

消融实验显示了推理计算在哪里产生回报。用随机课程替换自动课程使发现物品数下降 93%，意味着探索计算被浪费在无序任务上。移除技能库导致后期停滞，表明仅上下文记忆不足以进行开放式的具身进展。移除 self-verification 使发现物品数下降 73%，因为系统失去了决定何时提交技能并继续前进的门控。用 GPT-3.5 替换 GPT-4 进行代码生成导致独特物品减少 5.7 倍，因此昂贵模型在这种架构中并非偶然选择。

历史影响

Voyager 在历史上重要，因为它使 agent 循环看起来像一个软件系统：前沿模型编写代码，执行提供结构化错误，另一个模型验证成功，嵌入索引提供长期记忆。与通过许多环境步骤将行为摊销到权重中的 RL agent 相比，Voyager 在任务时刻花费推理并将成功存储为程序。这将后来的 agent 工作转向了代码作为动作、工具反馈、课程生成和基于技能库的检索。

局限

计算经济依赖于论文未解决的抽象。Voyager 在报告的版本中不支持视觉感知，并且由于它依赖于高层 Mineflayer API，未与 pixel-in、低层控制的 Minecraft agent 直接比较。来源明确说明重点是 GPT-4 终身具身学习，而非 3D 感知或感觉运动控制。GPT-4/GPT-3.5 的硬件和推理细节未披露，因此成本仅在 API 层面讨论。当 GPT-4 提议不存在的物品（如铜剑）、使用无效资源（如将圆石用作燃料）或调用不在提供 API 中的函数时，架构仍然会失败。迭代循环捕获了其中一些错误，但每次重试都是更多的付费推理和仿真器时间。

链接

计算范式：history/compute_regimes/inference_time_compute_post_training/README.md
来源 PDF 和抽取文本见上方元数据。
Queue 状态：read_complete。
方法索引：tool_use
对照更新：compute bottlenecks