Mastering the game of Go without human knowledge - 中文验证版

英文原文卡片：alphago_zero_2017.md

状态：已翻译。

元数据

阅读状态：read complete
年份：2017
计算范式：搜索、仿真与科学计算 (search_simulation_science_compute)
PDF：2017-alphago_zero_2017.pdf
抽取文本：2017-alphago_zero_2017.txt
PDF URL：https://discovery.ucl.ac.uk/id/eprint/10045895/1/agz_unformatted_nature.pdf
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期：2026-06-15

计算设置

论文给出了若干精确的计算事实，但未指明 TPU 或 GPU 的型号代际。AlphaGo Zero 的搜索/对弈系统使用"Google Cloud 中一台带 4 个 TPU 的单机"；作者将其与 AlphaGo Lee（分布式多机、48 个 TPU）和 AlphaGo Fan（176 个 GPU）进行对比。神经网络优化管线是独立的：TensorFlow 优化在 Google Cloud 上运行，配备 64 个 GPU worker 和 19 个 CPU 参数服务器，每个 worker 的 batch size 为 32，总 mini-batch size 为 2048。

20-block 版本从随机行为开始训练约 3 天，生成 490 万局自对弈，每步使用 1600 次 MCTS 模拟，从 700,000 个 2048 位置的 mini-batch 更新参数。更大的 40-block 版本训练约 40 天，生成 2900 万局对弈，使用 310 万个 2048 位置的 mini-batch。最终评估时，AlphaGo Zero 和 AlphaGo Master 各自运行在单台 4-TPU 机器上；AlphaGo Lee 仍作为分布式 48-TPU 对比点。

瓶颈

瓶颈是搜索生成的数据，而非监督数据集的大小。AlphaGo Zero 没有人类棋谱可模仿，也没有 rollout 策略，因此每一点提升都必须来自在 MCTS 中反复使用当前网络、产生更高质量的自对弈目标、然后训练网络匹配这些目标。自对弈中每步使用 1600 次模拟，论文称在 20-block 运行中对应每步约 0.4 秒思考时间。这是一个巨大的模拟预算乘以数百万局对弈。

系统还存在管线瓶颈。搜索产生数据、优化更新 checkpoint、评估器决定某个 checkpoint 是否足够强以用于后续自对弈。如果生成快于训练，数据质量停滞；如果训练快于生成，重放缓冲区缺乏新位置。论文通过异步管线解决这一问题：持续从近期自对弈中优化、持续评估 checkpoint、使用迄今为止的最优棋手生成数据。

方法适配

AlphaGo Zero 将算法适配为将昂贵的 TPU 搜索用于更少但更高质量的神经网络评估。单个残差网络同时输出策略和价值，取代了 AlphaGo Lee 分离的策略网络和价值网络，并消除了 rollout 评估。在每次 MCTS 模拟中，叶节点由网络评估一次，提供走子先验和价值。搜索概率成为改进的策略目标，最终对局结果成为价值目标。损失函数组合了价值误差、策略相对于搜索访问计数的交叉熵，以及 L2 正则化。

节省计算的关键选择是让网络完成所有叶节点评估并移除 rollout 走子。论文明确说明 AlphaGo Zero 不使用 rollout 策略或树策略，除已列出规则外没有额外搜索启发式。评估器使用 400 局对弈、每步 1600 次模拟，仅当新 checkpoint 以超过 55% 的胜率获胜时才提升，防止噪声导致的 checkpoint 震荡。自对弈每次迭代生成 25,000 局，使用相同的 1600 次模拟走子选择；认输可在明确输棋时节省计算，同时 10% 的对局中禁用认输以估计假阳性认输率。

残差架构也是计算结构选择。网络将 19×19 棋盘视为图像堆叠，使用 20 或 40 个残差块。将策略和价值合并到一个残差塔中提高了计算效率，并正则化了共享表示。

证据

3 天结果是主要证据。AlphaGo Zero 在 36 小时后超越 AlphaGo Lee，72 小时后在相同的 2 小时比赛条件下以 100 比 0 击败确切的李 Sedol 版本的 AlphaGo Lee。AlphaGo Zero 搜索使用单台 4-TPU 机器，而 AlphaGo Lee 是分布式 48-TPU 系统。论文强调 AlphaGo Lee 经过数月训练，而 AlphaGo Zero 从随机走子开始学习。

架构消融实验支持计算分配。在固定的 72 小时自对弈数据集上训练的网络显示，残差网络比先前的卷积架构更准确，并将棋力提升超过 600 Elo。将策略和价值合并到一个网络略微降低了走子预测准确率，但减少了价值误差并将棋力再提升约 600 Elo，部分归因于计算效率的提升。

40-block 运行扩展了规模证据。它训练 40 天，生成 2900 万局对弈，在论文内部比较中达到约 5185 的最终锦标赛 Elo，领先 AlphaGo Master 的 4858、AlphaGo Lee 的 3739 和 AlphaGo Fan 的 3144。在 100 局 2 小时限时的比赛中，40-block AlphaGo Zero 以 89 比 11 击败 AlphaGo Master。

历史影响

AlphaGo Zero 改变了高性能游戏 AI 的计算配方。它表明，足够的自对弈搜索和单个策略-价值残差网络可以从随机初始化引导出超越人类的性能，而非花费在人类数据、手工 rollout 和分布式搜索上。论文还使搜索成为训练算子：MCTS 不仅是推理时的附加组件，而是在每次更新中创建策略改进目标的机制。

局限

该方法并非不受领域结构或计算的限制。论文列出了仍在使用的领域知识：完美游戏规则、合法走子、自对弈/搜索中的 Tromp-Taylor 计分、19×19 棋盘几何、视角归一化，以及旋转/反射对称性。它专门针对零和完全信息游戏。未指明具体 TPU 和 GPU 型号，限制了硬件可复现性。最重要的是，自对弈预算极其庞大：数百万局对弈、每步 1600 次模拟、优化使用 64 个 GPU worker、对弈/评估使用 4 个 TPU 搜索机器。

链接

计算范式：history/compute_regimes/search_simulation_science_compute/README.md
来源 PDF 和抽取文本见上方元数据。
队列状态：read_complete。