Human-level control through deep reinforcement learning - 中文验证版

英文原文卡片：dqn_2015.md

状态：已翻译。

元数据

阅读状态：read complete
年份：2015
计算范式：搜索、仿真与科学计算（search_simulation_science_compute）
PDF：2015-dqn_2015.pdf
抽取文本：2015-dqn_2015.txt
PDF URL：https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期：2026-06-15

计算设置

论文未报告训练硬件。本地设备抽取文件同样将 2015-dqn_2015 标记为未报告。按项目规则，设备因此应从研究时间和设备时代推断，而非作为论文声明的硬件：2014 年 NVIDIA Tesla K40 级 CUDA 研究服务器，大概率是单 GPU 或小型本地 GPU 设置，这是从加速器时代地图得出的保守推断。论文本身支撑工作负载规模，但不支撑确切设备。

工作负载是来自 Atari 像素的逐游戏深度强化学习。作者为 49 个 Atari 2600 游戏中每个游戏训练一个不同的网络。每个网络训练 50M 帧，描述为约 38 天的游戏体验，使用 RMSProp，minibatch 为 32，重放记忆为最近 1M 帧。模型按后来的标准来看很小，但实验计算量很大，因为前向/反向循环嵌入在长时仿真器数据生成循环中。

瓶颈

瓶颈不仅仅是神经网络 FLOP。它是下述因素之间的交互：不稳定的自举值学习、相关仿真器样本、每个游戏漫长的训练运行、以及有限的 2014 年 GPU 内存。输入最初是 210 x 160 的彩色视频，60 Hz，但网络消费的是 84 x 84 x 4 的历史。四帧堆叠保留了短期运动信息，而无需向 GPU 馈送递归模型或长序列。

使用非线性函数逼近器的深度 Q-learning 可能发散，因为模型学习的目标取决于其自身不断变化的参数。Atari 增加了另一个设备形态的问题：连续帧高度相关，因此朴素的在线 SGD 在冗余状态上浪费 minibatch 并产生不稳定的反馈循环。解决方案必须让 GPU 能够在离策略重放上训练，同时保留足够的状态历史以从像素学习动作值。

方法适配

DQN 以具体方式将方法适配到单 GPU 深度学习范式。经验重放存储转移并均匀采样 minibatch，将时间相关流转化为更接近 IID 的训练集，并使每个仿真器转移可在许多权重更新中重复使用。1M 帧重放记忆是一个内存侧的设计选择：足够大以去相关并抚平行为分布，但有界以确保训练可以持续循环最近的经验。

目标网络是另一个计算稳定性适配。DQN 不是使用每个梯度步都变化的目标，而是周期性克隆 Q 网络并在一个更新块内保持该目标固定。奖励裁剪和误差裁剪进一步使梯度保持在数值可管理的范围内。

网络架构也围绕推理成本构建。此前一些 Q 架构需要为每个动作单独前向传递，使成本随动作计数线性增长。DQN 则具有一个共享卷积骨干和每个有效动作的独立输出单元，因此动作值向量在单次传递中产生。跳帧同样具有计算意识：因为仿真器步进比网络动作选择更便宜，在跳过的帧上重复动作使 agent 可以大致玩 k 倍更多的帧而不成比例地增加运行时间。

证据

方法部分给出了主要训练规模：49 个 Atari 游戏，每游戏一个不同网络，RMSProp minibatch 为 32，epsilon-greedy 探索在前 1M 帧从 1.0 退火到 0.1，每游戏总计 50M 帧，重放记忆为最近 1M 帧。输入是 84 x 84 x 4 的预处理图像历史。

基准证据是广泛的而非一次性的。DQN 在 49 个游戏中的 43 个上优于此前的最佳强化学习方法。它在 29 个游戏上达到专业人类归一化分数的 75% 以上，在整个套件中使用相同的架构、学习算法和超参数。图 3 将 DQN 分数归一化到随机游戏和专业人类游戏测试员之间，并显示在大多数游戏上达到人类水平或以上。

消融实验对计算结构主张很重要。扩展数据表 3 在 10M 帧上训练 agent，同时切换重放和分离的目标 Q 网络。扩展数据表 4 在相同的重放和目标网络机制下比较卷积网络与线性函数逼近器，支持了来自像素的 GPU 适用卷积表示学习的价值。

历史影响

DQN 使来自原始像素的深度强化学习成为实用的加速器时代基线。历史计算影响在于展示了一个固定的 GPU 训练配方可以消化大型仿真器工作负载并生成跨数十个游戏的单一通用基准表。这将深度 RL 从手工设计特征和小领域转向标准化仿真器吞吐量、重放缓冲区和卷积策略。

它也预示了后来仿真论文中反复出现的模式：模型可以很简单，但能力来自大量环境交互加上仔细的样本复用。昂贵的对象不只是一个静态数据集；而是创建数据、存储数据、采样数据并更新策略/值函数的循环。

局限

确切硬件是推断的，而非论文声明的，论文未报告墙钟训练时间。按人类标准来看，该方法仍然样本效率低下：50M 帧约为每游戏 38 天的游戏体验。长时域探索仍然薄弱。论文明确将需要时序扩展规划的任务，如 Montezuma's Revenge，列为重大挑战。

重放缓冲区采用均匀采样且有界，因此可能覆盖掉罕见但重要的转移，且不优先采纳学习价值高的经验。Atari 基准禁用了音频并使用最小先验知识，这有助于标准化但也收窄了领域。DQN 的计算适配解决了 2015 年单 GPU 稳定性问题；它未解决探索、规划或跨游戏的高效迁移。

链接

计算范式：../../../compute_regimes/search_simulation_science_compute/README.md
来源 PDF 和抽取文本列于上文元数据中。
队列状态：read_complete。