Mastering the game of Go with deep neural networks and tree search
Mastering the game of Go with deep neural networks and tree search - 中文验证版
英文原文卡片:alphago_2016.md
状态:已翻译。
元数据
- 阅读状态:read complete
- 年份:2016
- 计算范式:搜索、仿真与科学计算 (
search_simulation_science_compute) - PDF:2016-alphago_2016.pdf
- 抽取文本:2016-alphago_2016.txt
- PDF URL:https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf
- OpenAlex:
- 引用计数来源/日期:
- 引用计数:
- 阅读卡创建日期:2026-06-15
计算设置
论文对训练硬件和对弈时搜索硬件均有明确说明。最终单机版 AlphaGo 使用 40 个搜索线程、48 块 CPU 和 8 块 GPU。分布式版本使用多台机器,配备 40 个搜索线程、1202 块 CPU 和 176 块 GPU。硬件分工反映了算法结构:CPU 执行异步蒙特卡洛树搜索和走子模拟,GPU 批量处理开销较大的策略网络和价值网络评估。
训练同样使用了在当时规模可观的加速器并行。监督策略网络在来自 16 万局 KGS 6-9 段对弈的 2940 万个棋位上训练,并通过棋盘对称性进行数据增强,在 DistBelief 框架上使用 50 块 GPU 进行异步 SGD。minibatch 大小为 16,约需 3 周完成 3.4 亿个训练步。强化学习策略阶段在 50 块 GPU 上训练 10,000 个 minibatch(每个 128 局自对弈),耗时约一天;价值网络在 50 块 GPU 上从超过 3000 万个不同自对弈棋位训练约一周。论文中未提及 TPU 硬件,具体列出的设备为 CPU 和 GPU。
瓶颈
瓶颈在于围棋巨大的搜索树与深度神经网络评估成本之间的不匹配。论文指出,评估策略网络和价值网络所需的计算量比传统搜索启发式方法高出几个数量级。纯神经网络评估器会因 GPU 延迟成为瓶颈;纯走子模拟搜索则会在极宽的搜索树上浪费 CPU 模拟,且在终局走子模拟中不够准确。因此 AlphaGo 面临双重瓶颈:选择哪些棋位值得进行昂贵的 GPU 评估,同时保持足够多的 CPU 模拟并发运行以掩盖该成本。
走子模拟吞吐量是同一约束的另一面。快速走子策略每 CPU 线程每秒约执行 1000 次模拟,而更深的策略和价值网络则以 GPU minibatch 方式异步评估。CPU 提供广度和走子模拟统计;GPU 提供有信息的先验概率和更强的叶节点评估。
方法适配
AlphaGo 通过分离快速和慢速评估器来使方法适配硬件。监督策略网络通过为棋步分配先验概率来缩小搜索树。强化学习策略通过自对弈改进策略。价值网络从棋盘局面预测获胜方,用学习到的评估替代大量昂贵的完整对弈走子模拟。单独的快速走子策略成本低得多,使用局部模式特征,适合在 CPU 上进行终局走子模拟。
MCTS 实现是显式异步的。多个搜索线程以虚拟损失遍历树结构以阻止冲突。叶节点棋位被插入队列,等待 GPU 进行策略和价值评估;棋位以 minibatch 方式评估以提高加速器利用率。分布式版本将树结构保存在主节点上,将走子模拟工作发送给 CPU worker,将神经网络工作发送给 GPU worker。这就是结果背后的计算结构:神经网络并未取代搜索;搜索得到了重新组织,使稀缺的 GPU 调用集中在高价值棋位上。
该方法还通过输入表示来适配内存和批处理。策略和价值网络接收 19x19 的特征平面堆叠而非原始渲染图像,因此 GPU 内存用于棋盘状态特征和卷积滤波器,而不是视觉预处理。
证据
论文给出了关于棋力和硬件扩展的直接基准证据。在每步 5 秒的内部锦标赛中,使用 48 块 CPU 和 8 块 GPU 的单机 AlphaGo 达到 Elo 2890,而使用 1202 块 CPU 和 176 块 GPU 的分布式 AlphaGo 达到 Elo 3140。论文指出,单机 AlphaGo 在与其他围棋程序对弈的 495 局中赢得了 494 局,胜率 99.8%。分布式 AlphaGo 在正式比赛中以 5-0 击败欧洲冠军、职业二段棋手樊麾。
消融实验和可扩展性表格尤其与计算相关。使用 48 块 CPU 和 8 块 GPU 时,异步 AlphaGo 从 1 个搜索线程的 Elo 2203 提升到 40 个搜索线程的 Elo 2890。固定 40 个线程和 48 块 CPU,将 GPU 从 8 块减至 4 块,Elo 降至 2850;减至 2 块降至 2738;减至 1 块降至 2181。分布式变体继续上升:428 CPU/64 GPU 得分 2937,764 CPU/112 GPU 得分 3079,1202 CPU/176 GPU 得分 3140。
历史影响
AlphaGo 确立了神经策略/价值网络加树搜索作为一种适用于巨大组合空间的可行计算结构。在此论文之前,围棋程序主要依赖手工设计的模式识别和蒙特卡洛搜索。AlphaGo 展示了 GPU 训练的网络可以使搜索变得足够有选择性,令程序评估的棋位远少于经典暴力游戏引擎,同时仍能走出更强的棋步。
从历史角度看,其重要性也在于架构层面。它是以异构运行时实现 AI 性能的早期高调案例:离线分布式神经训练、在线 CPU 搜索、GPU minibatch 推理,以及它们之间的工程化数据流。
局限
局限可从同一计算结构中清楚看到。AlphaGo 依赖人类专家棋局进行监督策略训练阶段,依赖手工设计的走子模拟特征进行廉价 CPU 终局模拟,依赖围棋特定的棋盘对称性和特征平面,以及大量对弈时搜索硬件。其最强分布式配置并非仅在一个加速器上服务的训练好的神经网络,而是一个包含 1202 块 CPU 和 176 块 GPU 的搜索系统。
论文也未声称其架构可推广到双人完全信息围棋之外的通用游戏。它假设存在合法走子生成、确定性状态转移,以及走子模拟和价值网络可以干净结合的领域。计算层面的启示有力但专用:深度网络重塑了搜索,但强大的棋力仍然来自可观的在线模拟预算和领域工程。
链接
- 计算范式:
history/compute_regimes/search_simulation_science_compute/README.md - 来源 PDF 和抽取文本见上方元数据。
- 队列状态:
read_complete。