A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play - 中文验证版

英文原文卡片：alphazero_2018.md

状态：已翻译。

元数据

阅读状态：read complete
年份：2018
计算范式：搜索、仿真与科学计算 (search_simulation_science_compute)
PDF：2018-alphazero_2018.pdf
抽取文本：2018-alphazero_2018.txt
PDF URL：https://arxiv.org/pdf/1712.01815.pdf
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期：2026-06-15

计算设置

论文明确给出了训练集群说明。每个游戏特定的 AlphaZero 实例训练 700000 步，mini-batch 大小为 4096，从随机参数开始，使用 5000 个第一代 TPU 生成自对弈棋局，使用 64 个第二代 TPU 训练神经网络。这比 AlphaGo Zero 的单机自对弈设置要大得多，反映了为国际象棋、将棋和围棋分别训练系统所需的高吞吐量。

附录表 S3 给出了每个游戏的规模：4400 万局国际象棋、2400 万局将棋和 2100 万局围棋；训练时间分别为国际象棋 9 小时、将棋 12 小时、围棋 34 小时；每步 800 次 MCTS 模拟。这 800 次模拟对应训练期间国际象棋每步约 40 ms、将棋 80 ms、围棋 200 ms。评估时 MCTS 在一台配备 4 个 TPU 的单机上执行。基线是 CPU 引擎：Stockfish 8 和 Elmo/YaneuraOu 使用 64 个 CPU 线程和 1GB 哈希表。

瓶颈

瓶颈在于使搜索加自对弈足够通用，以替代数十年的手工博弈引擎启发式方法，同时仍然产出足够数量的高质量训练数据。国际象棋和将棋引擎（如 Stockfish 和 Elmo）使用 alpha-beta 搜索、手工评估函数、行棋排序、剪枝、静态搜索、开局/残局数据库以及其他领域适配。AlphaZero 用神经网络策略-价值网络和 MCTS 替代了这些，使计算从廉价的手工局面评估转向昂贵的神经网络评估。

吞吐量对比非常鲜明。论文报告 AlphaZero 在国际象棋中每秒搜索约 8 万个局面，将棋中约 4 万个，而 Stockfish 为每秒 7000 万个局面，Elmo 为 3500 万个。因此 AlphaZero 无法靠蛮力节点数取胜。它必须在每个评估节点上花费更多计算，但使用策略-价值网络将搜索聚焦于更好的变化。训练瓶颈则在于自对弈体量：必须用神经网络 MCTS 生成数千万局对弈，并且网络必须足够快地更新，以便最新参数能改善未来的对局。

方法适配

AlphaZero 通过移除围棋特定的假设，将 AlphaGo Zero 的计算结构适配到多个游戏。它使用由深度网络 f_θ(s) = (p, v) 引导的通用 MCTS，其中 p 给出走子概率，v 估计预期结果。与 AlphaGo Zero 的二元胜/负值不同，AlphaZero 优化预期结果，从而可以表示和棋。它还移除了旋转/反射增强以及 MCTS 期间的随机棋盘变换，因为国际象棋和将棋不像围棋那样对称。

训练循环为吞吐量做了简化。AlphaGo Zero 在评估器对决后提升检查点；AlphaZero 维护一个持续更新的单一网络，并从最新参数生成自对弈。这从数据生成中移除了一个迭代级别的评估器门控。训练期间，每次 MCTS 使用 800 次模拟，Dirichlet 噪声按每个游戏的典型合法走子数量缩放，非法走子通过将其概率设为零并重新归一化来屏蔽。棋盘状态和走子被编码为从基本规则派生的空间平面：国际象棋为 119 个输入平面和 4672 个可能的策略走子，将棋为 362 个输入平面和 11259 个策略走子，围棋使用 AlphaGo Zero 的围棋表示。

证据

学习曲线证据以墙钟时间和训练步数为锚点。AlphaZero 在 4 小时（300K 步）后超越 Stockfish，在不到 2 小时（110K 步）后超越 Elmo，在 8 小时（165K 步）后超越 AlphaGo Lee。在每步 1 分钟的最终 100 局对抗中，它执白对 Stockfish 取得 25 胜 25 和 0 负，执黑取得 3 胜 47 和 0 负。对 Elmo，它执先取得 43 胜 2 和 5 负，执后取得 47 胜 0 和 3 负。对训练 3 天的 AlphaGo Zero，它在表中显示的两种围棋执色分配下以 60-40 取胜。

搜索证据同样重要。尽管 AlphaZero 评估的局面数大约是 alpha-beta 引擎的千分之一，但在论文的 Elo 图中，其 MCTS 随思考时间的扩展更为有效。这支持了核心计算主张：神经网络评估代价高昂，但学习到的策略/价值先验可以使每个评估节点更加有用。

表 S3 中的训练规模证据同样关键。国际象棋是三个游戏中每步思考时间最便宜的，将棋居中，围棋最慢，反映了棋盘大小、对局长度和搜索成本的差异。然而，相同的算法和超参数在所有三个游戏上都有效，仅调整了游戏规则编码和探索噪声的规模。

历史影响

AlphaZero 将 AlphaGo Zero 的方案推广为一种经典的计算密集型模式：大规模自对弈生成、用于策略改进的神经网络 MCTS，以及从搜索目标和结果训练的策略-价值网络。它的历史重要性部分在于算法，部分在于基础设施。它表明，只要有足够的 TPU 自对弈吞吐量，一个通用方案就可以在搜索传统截然不同的领域中击败专用引擎。

局限

论文自身的领域知识列表中清晰地列出了局限。AlphaZero 获得了完美的游戏规则、合法走子、终局/计分规则、棋盘几何结构以及特征/走子编码。它处理完全信息棋盘游戏，而非不完全信息游戏。计算预算也极为庞大：5000 个 TPU 用于自对弈，外加 64 个 TPU 用于网络训练，生成数千万局对弈。论文指出，AlphaGo Master 和更大的 AlphaGo Zero 最终训练时长约为百倍，因此这一结果虽然很大，但仍不是该路线中最大计算版本的成果。

链接

计算范式：history/compute_regimes/search_simulation_science_compute/README.md
源 PDF 和抽取文本见上方元数据。
队列状态：read_complete