Mastering the game of Go without human knowledge
Mastering the game of Go without human knowledge - 中文验证版
英文原文卡片:alphago_zero_2017.md
状态:已翻译。
元数据
- 阅读状态:read complete
- 年份:2017
- 计算范式:搜索、仿真与科学计算 (
search_simulation_science_compute) - PDF:2017-alphago_zero_2017.pdf
- 抽取文本:2017-alphago_zero_2017.txt
- PDF URL:https://discovery.ucl.ac.uk/id/eprint/10045895/1/agz_unformatted_nature.pdf
- OpenAlex:
- 引用计数来源/日期:
- 引用计数:
- 阅读卡创建日期:2026-06-15
计算设置
论文给出了若干精确的计算事实,但未指明 TPU 或 GPU 的型号代际。AlphaGo Zero 的搜索/对弈系统使用"Google Cloud 中一台带 4 个 TPU 的单机";作者将其与 AlphaGo Lee(分布式多机、48 个 TPU)和 AlphaGo Fan(176 个 GPU)进行对比。神经网络优化管线是独立的:TensorFlow 优化在 Google Cloud 上运行,配备 64 个 GPU worker 和 19 个 CPU 参数服务器,每个 worker 的 batch size 为 32,总 mini-batch size 为 2048。
20-block 版本从随机行为开始训练约 3 天,生成 490 万局自对弈,每步使用 1600 次 MCTS 模拟,从 700,000 个 2048 位置的 mini-batch 更新参数。更大的 40-block 版本训练约 40 天,生成 2900 万局对弈,使用 310 万个 2048 位置的 mini-batch。最终评估时,AlphaGo Zero 和 AlphaGo Master 各自运行在单台 4-TPU 机器上;AlphaGo Lee 仍作为分布式 48-TPU 对比点。
瓶颈
瓶颈是搜索生成的数据,而非监督数据集的大小。AlphaGo Zero 没有人类棋谱可模仿,也没有 rollout 策略,因此每一点提升都必须来自在 MCTS 中反复使用当前网络、产生更高质量的自对弈目标、然后训练网络匹配这些目标。自对弈中每步使用 1600 次模拟,论文称在 20-block 运行中对应每步约 0.4 秒思考时间。这是一个巨大的模拟预算乘以数百万局对弈。
系统还存在管线瓶颈。搜索产生数据、优化更新 checkpoint、评估器决定某个 checkpoint 是否足够强以用于后续自对弈。如果生成快于训练,数据质量停滞;如果训练快于生成,重放缓冲区缺乏新位置。论文通过异步管线解决这一问题:持续从近期自对弈中优化、持续评估 checkpoint、使用迄今为止的最优棋手生成数据。
方法适配
AlphaGo Zero 将算法适配为将昂贵的 TPU 搜索用于更少但更高质量的神经网络评估。单个残差网络同时输出策略和价值,取代了 AlphaGo Lee 分离的策略网络和价值网络,并消除了 rollout 评估。在每次 MCTS 模拟中,叶节点由网络评估一次,提供走子先验和价值。搜索概率成为改进的策略目标,最终对局结果成为价值目标。损失函数组合了价值误差、策略相对于搜索访问计数的交叉熵,以及 L2 正则化。
节省计算的关键选择是让网络完成所有叶节点评估并移除 rollout 走子。论文明确说明 AlphaGo Zero 不使用 rollout 策略或树策略,除已列出规则外没有额外搜索启发式。评估器使用 400 局对弈、每步 1600 次模拟,仅当新 checkpoint 以超过 55% 的胜率获胜时才提升,防止噪声导致的 checkpoint 震荡。自对弈每次迭代生成 25,000 局,使用相同的 1600 次模拟走子选择;认输可在明确输棋时节省计算,同时 10% 的对局中禁用认输以估计假阳性认输率。
残差架构也是计算结构选择。网络将 19×19 棋盘视为图像堆叠,使用 20 或 40 个残差块。将策略和价值合并到一个残差塔中提高了计算效率,并正则化了共享表示。
证据
3 天结果是主要证据。AlphaGo Zero 在 36 小时后超越 AlphaGo Lee,72 小时后在相同的 2 小时比赛条件下以 100 比 0 击败确切的李 Sedol 版本的 AlphaGo Lee。AlphaGo Zero 搜索使用单台 4-TPU 机器,而 AlphaGo Lee 是分布式 48-TPU 系统。论文强调 AlphaGo Lee 经过数月训练,而 AlphaGo Zero 从随机走子开始学习。
架构消融实验支持计算分配。在固定的 72 小时自对弈数据集上训练的网络显示,残差网络比先前的卷积架构更准确,并将棋力提升超过 600 Elo。将策略和价值合并到一个网络略微降低了走子预测准确率,但减少了价值误差并将棋力再提升约 600 Elo,部分归因于计算效率的提升。
40-block 运行扩展了规模证据。它训练 40 天,生成 2900 万局对弈,在论文内部比较中达到约 5185 的最终锦标赛 Elo,领先 AlphaGo Master 的 4858、AlphaGo Lee 的 3739 和 AlphaGo Fan 的 3144。在 100 局 2 小时限时的比赛中,40-block AlphaGo Zero 以 89 比 11 击败 AlphaGo Master。
历史影响
AlphaGo Zero 改变了高性能游戏 AI 的计算配方。它表明,足够的自对弈搜索和单个策略-价值残差网络可以从随机初始化引导出超越人类的性能,而非花费在人类数据、手工 rollout 和分布式搜索上。论文还使搜索成为训练算子:MCTS 不仅是推理时的附加组件,而是在每次更新中创建策略改进目标的机制。
局限
该方法并非不受领域结构或计算的限制。论文列出了仍在使用的领域知识:完美游戏规则、合法走子、自对弈/搜索中的 Tromp-Taylor 计分、19×19 棋盘几何、视角归一化,以及旋转/反射对称性。它专门针对零和完全信息游戏。未指明具体 TPU 和 GPU 型号,限制了硬件可复现性。最重要的是,自对弈预算极其庞大:数百万局对弈、每步 1600 次模拟、优化使用 64 个 GPU worker、对弈/评估使用 4 个 TPU 搜索机器。
链接
- 计算范式:
history/compute_regimes/search_simulation_science_compute/README.md - 来源 PDF 和抽取文本见上方元数据。
- 队列状态:
read_complete。