Mastering Atari, Go, chess and shogi by planning with a learned model - 中文验证版

英文原文卡片：muzero_2019.md

状态：已翻译。

元数据

Slug： muzero_2019
年份： 2019
PDF URL： https://arxiv.org/pdf/1911.08265.pdf
OpenAlex：
引用数来源/日期：
引用数：
卡片创建日期： 2026-06-15
阅读状态： read complete
计算范式： 搜索、仿真与科学计算（search_simulation_science_compute）
主要来源： PDF、抽取文本

计算设置

论文明确说明所有实验都在第三代 Google Cloud TPUs 上运行。TPU 的分配因领域显著不同。对于每个棋盘游戏 Go、国际象棋和将棋，MuZero 使用 16 块 TPUs 进行训练和 1000 块 TPUs 进行自对弈。对于每个 Atari 游戏，它使用 8 块 TPUs 进行训练和 32 块 TPUs 进行自对弈。附录解释了为什么 Atari 的 acting fleet 更小：Atari 每步仅使用 50 次仿真而非 800 次，且其动态函数比表示函数小。

训练进行 100 万 mini-batches，棋盘游戏的 batch size 为 2048，Atari 为 1024。所有报告的主要实验将学习到的模型展开 K = 5 个假设步骤。在训练和评估期间，棋盘游戏每次搜索使用 800 次仿真，Atari 每次搜索使用 50 次仿真。Atari 对比表中，在大数据设置下 MuZero 列出 20.0B 环境帧、12 小时和 1M 训练步骤；在样本高效设置下，MuZero Reanalyze 使用 200M 帧、12 小时和 1M 训练步骤。

瓶颈

MuZero 的瓶颈是在没有提供模拟器的情况下进行规划。AlphaZero 可以在 MCTS 内部使用游戏规则从一个棋盘状态转移到下一个棋盘状态。MuZero 移除了这一假设：模型必须学习一个足以支持搜索的表示、动态函数、奖励预测、策略和价值。这产生了两个耦合成本。首先，每次 MCTS 仿真都调用学习到的动态和预测函数，因此搜索仍然昂贵。其次，当搜索加深时模型误差可能累积，尤其是在视觉复杂的 Atari 中。

论文围绕这一瓶颈区分了棋盘游戏和 Atari 预算。棋盘游戏保留了 AlphaZero 的每步 800 次仿真，因为分支因子和战术精度需要更深的搜索。Atari 具有较小的动作空间和更简单的策略，因此作者每步使用 50 次仿真以加速实验。然而，Atari 缩放分析显示性能在约 100 次仿真附近趋于平稳，可能因为学习到的模型不准确限制了更多搜索的价值。相比之下，在围棋中，学习到的模型在远长于训练期间使用的搜索长度下仍能很好缩放。

方法适配

MuZero 通过仅学习搜索所需的内容来适配基于模型的规划。表示函数将过去的观察映射到隐藏状态。动态函数接受一个隐藏状态和假设动作，返回新的隐藏状态加即时奖励。预测函数返回策略和价值。没有要求隐藏状态重建像素或匹配真实环境状态。这是一个直接的计算选择：预测完整观察会将模型容量和搜索计算浪费在无关的视觉细节上，而预测奖励、价值和策略则将潜在模型聚焦于规划。

搜索算法保持与 AlphaZero 接近。每次仿真使用上置信度规则选择动作，通过调用动态和预测函数展开一个叶节点，并回传折扣奖励和价值估计。论文指出每次仿真最多进行一个动态调用和一个预测调用，使计算复杂度与 AlphaZero 相似，即使模拟器是学习到的。对于棋盘游戏，模型使用类 AlphaZero 的表示和 16 个残差块而非 AlphaZero 的 20 个，具有 256 个隐藏平面。对于 Atari，表示网络通过 stride-2 卷积和残差块将 96 × 96 RGB 帧历史下采样到 6 × 6 隐藏状态。

MuZero Reanalyze 是另一个计算适配。它重新访问旧的时间步，使用最新网络重新运行 MCTS，为 80% 的更新提供更新的策略目标。这增加了每个存储样本的计算量，但通过将旧经验转化为更新的搜索目标来提高样本效率。

证据

棋盘游戏证据表明学习到的动态模型可以在高棋力水平下替代完美模拟器。Figure 2 评估了 MuZero 对 AlphaZero，双方每步使用 800 次仿真。文本说明 MuZero 在国际象棋和将棋上与 AlphaZero 持平，在围棋上略超 AlphaZero，尽管每次评估使用 16 个残差块而非 AlphaZero 的 20 个。围棋搜索缩放实验尤其与计算相关：两个网络在每次搜索 800 次仿真、约 0.1 秒的条件下训练，然而 MuZero 学习到的模型可缩放到长达 10 秒的搜索，比训练搜索时间长两个数量级。

Atari 证据更为广泛。在大数据设置下，MuZero 报告中位 human-normalized score 为 2041.1%，平均为 4999.2%，使用 20.0B 帧和 12 小时，相比之下 R2D2 为 1920.6% 中位和 4024.9% 平均，使用 37.5B 帧和 5 天。论文指出 MuZero 在 57 个 Atari 游戏中的 42 个上优于 R2D2，并在所有游戏上优于先前的基于模型的方法 SimPLe。在 200M 帧设置下，MuZero Reanalyze 达到 731.1% 中位和 2168.9% 平均，高于列出的 IMPALA、Rainbow 和 LASER 中位数。

仿真计数的消融显示了搜索预算的权衡。在 Atari 中，最终性能随仿真数增加而提高，直到约 100 次后基本趋于平稳。在 Ms. Pacman 中，即使是每步 6 次仿真也能学习到有效的策略，但更多仿真带来更快改进。这支持了论文较小的 Atari acting TPU 分配，同时也表明搜索仍然是学习信号的一部分。

历史影响

MuZero 将 AlphaZero 的计算配方扩展到了已知规则之外的领域。其历史影响是使基于模型的规划在精确的棋盘游戏和视觉丰富的 Atari 中都具备了竞争力，而无需完美模拟器。它将学习到的模型重新构建为价值等效的规划设备而非像素预测器，这有助于将基于模型的 RL 与昂贵的观察重建分离开来。

局限

论文明确说明不完全信息游戏如扑克未被直接涉及。在报告的模型中，学习到的动态是确定性的，随机扩展留待未来工作。MuZero 仍然计算量很大：棋盘游戏每个游戏使用 1000 块 acting TPUs，Atari 每个游戏仍使用 32 块 acting TPUs，并且除非消融外每个动作都通过 MCTS 选择。最后，Atari 规划平台期表明学习到的模型误差限制了在视觉复杂环境中额外推理计算能带来多少帮助。

链接

计算范式：history/compute_regimes/search_simulation_science_compute/README.md
源 PDF 和抽取文本见上方元数据。
队列状态：read_complete。