A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play

下载 PDF

A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play - 中文验证版

英文原文卡片:alphazero_2018.md

状态:已翻译。

元数据

计算设置

论文明确给出了训练集群说明。每个游戏特定的 AlphaZero 实例训练 700000 步,mini-batch 大小为 4096,从随机参数开始,使用 5000 个第一代 TPU 生成自对弈棋局,使用 64 个第二代 TPU 训练神经网络。这比 AlphaGo Zero 的单机自对弈设置要大得多,反映了为国际象棋、将棋和围棋分别训练系统所需的高吞吐量。

附录表 S3 给出了每个游戏的规模:4400 万局国际象棋、2400 万局将棋和 2100 万局围棋;训练时间分别为国际象棋 9 小时、将棋 12 小时、围棋 34 小时;每步 800 次 MCTS 模拟。这 800 次模拟对应训练期间国际象棋每步约 40 ms、将棋 80 ms、围棋 200 ms。评估时 MCTS 在一台配备 4 个 TPU 的单机上执行。基线是 CPU 引擎:Stockfish 8 和 Elmo/YaneuraOu 使用 64 个 CPU 线程和 1GB 哈希表。

瓶颈

瓶颈在于使搜索加自对弈足够通用,以替代数十年的手工博弈引擎启发式方法,同时仍然产出足够数量的高质量训练数据。国际象棋和将棋引擎(如 Stockfish 和 Elmo)使用 alpha-beta 搜索、手工评估函数、行棋排序、剪枝、静态搜索、开局/残局数据库以及其他领域适配。AlphaZero 用神经网络策略-价值网络和 MCTS 替代了这些,使计算从廉价的手工局面评估转向昂贵的神经网络评估。

吞吐量对比非常鲜明。论文报告 AlphaZero 在国际象棋中每秒搜索约 8 万个局面,将棋中约 4 万个,而 Stockfish 为每秒 7000 万个局面,Elmo 为 3500 万个。因此 AlphaZero 无法靠蛮力节点数取胜。它必须在每个评估节点上花费更多计算,但使用策略-价值网络将搜索聚焦于更好的变化。训练瓶颈则在于自对弈体量:必须用神经网络 MCTS 生成数千万局对弈,并且网络必须足够快地更新,以便最新参数能改善未来的对局。

方法适配

AlphaZero 通过移除围棋特定的假设,将 AlphaGo Zero 的计算结构适配到多个游戏。它使用由深度网络 f_θ(s) = (p, v) 引导的通用 MCTS,其中 p 给出走子概率,v 估计预期结果。与 AlphaGo Zero 的二元胜/负值不同,AlphaZero 优化预期结果,从而可以表示和棋。它还移除了旋转/反射增强以及 MCTS 期间的随机棋盘变换,因为国际象棋和将棋不像围棋那样对称。

训练循环为吞吐量做了简化。AlphaGo Zero 在评估器对决后提升检查点;AlphaZero 维护一个持续更新的单一网络,并从最新参数生成自对弈。这从数据生成中移除了一个迭代级别的评估器门控。训练期间,每次 MCTS 使用 800 次模拟,Dirichlet 噪声按每个游戏的典型合法走子数量缩放,非法走子通过将其概率设为零并重新归一化来屏蔽。棋盘状态和走子被编码为从基本规则派生的空间平面:国际象棋为 119 个输入平面和 4672 个可能的策略走子,将棋为 362 个输入平面和 11259 个策略走子,围棋使用 AlphaGo Zero 的围棋表示。

证据

学习曲线证据以墙钟时间和训练步数为锚点。AlphaZero 在 4 小时(300K 步)后超越 Stockfish,在不到 2 小时(110K 步)后超越 Elmo,在 8 小时(165K 步)后超越 AlphaGo Lee。在每步 1 分钟的最终 100 局对抗中,它执白对 Stockfish 取得 25 胜 25 和 0 负,执黑取得 3 胜 47 和 0 负。对 Elmo,它执先取得 43 胜 2 和 5 负,执后取得 47 胜 0 和 3 负。对训练 3 天的 AlphaGo Zero,它在表中显示的两种围棋执色分配下以 60-40 取胜。

搜索证据同样重要。尽管 AlphaZero 评估的局面数大约是 alpha-beta 引擎的千分之一,但在论文的 Elo 图中,其 MCTS 随思考时间的扩展更为有效。这支持了核心计算主张:神经网络评估代价高昂,但学习到的策略/价值先验可以使每个评估节点更加有用。

表 S3 中的训练规模证据同样关键。国际象棋是三个游戏中每步思考时间最便宜的,将棋居中,围棋最慢,反映了棋盘大小、对局长度和搜索成本的差异。然而,相同的算法和超参数在所有三个游戏上都有效,仅调整了游戏规则编码和探索噪声的规模。

历史影响

AlphaZero 将 AlphaGo Zero 的方案推广为一种经典的计算密集型模式:大规模自对弈生成、用于策略改进的神经网络 MCTS,以及从搜索目标和结果训练的策略-价值网络。它的历史重要性部分在于算法,部分在于基础设施。它表明,只要有足够的 TPU 自对弈吞吐量,一个通用方案就可以在搜索传统截然不同的领域中击败专用引擎。

局限

论文自身的领域知识列表中清晰地列出了局限。AlphaZero 获得了完美的游戏规则、合法走子、终局/计分规则、棋盘几何结构以及特征/走子编码。它处理完全信息棋盘游戏,而非不完全信息游戏。计算预算也极为庞大:5000 个 TPU 用于自对弈,外加 64 个 TPU 用于网络训练,生成数千万局对弈。论文指出,AlphaGo Master 和更大的 AlphaGo Zero 最终训练时长约为百倍,因此这一结果虽然很大,但仍不是该路线中最大计算版本的成果。

链接

  • 计算范式:history/compute_regimes/search_simulation_science_compute/README.md
  • 源 PDF 和抽取文本见上方元数据。
  • 队列状态:read_complete