Generative Adversarial Nets - 中文验证版

英文原始依据卡片：gan_2014.md

状态：已翻译。

元数据

阅读状态：read complete
年份：2014
计算范式：生成式媒体计算 (generative_media_compute)
PDF：2014-gan_2014.pdf
抽取文本：2014-gan_2014.txt
PDF URL：https://arxiv.org/pdf/1406.2661.pdf
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期：2026-06-15

计算设置

论文未指明确切的 CPU 或 GPU 型号、设备数量、内存大小、wall-clock 时间或训练 FLOPs。其致谢感谢 Compute Canada 和 Calcul Quebec 提供计算资源，并感谢 Pylearn2 和 Theano 开发者。参考文献将 Theano 标识为 CPU 和 GPU 数学表达式编译器。按项目规则，设备设置因此推断为 2014 年学术 CPU/GPU 计算，可能由集群支持，但不应将任何具体加速器归于该论文。

来源确实给出了计算结构。generator 和 discriminator 是用 backpropagation 训练的多层感知机，discriminator 中使用了 dropout，小批量随机梯度下降交替更新 discriminator 和 generator。算法 1 指出，discriminator 步数 k 是一个超参数，作者使用了 k = 1，即"最廉价的选择"。训练后的采样是噪声通过 generator 的单次 forward 传递。没有 Markov chain 或近似推断并非偶然；这是面向设备的核心简化。

瓶颈

此前深度生成模型的瓶颈不仅仅是模型容量；更是推断、采样和 partition-function 近似的成本。论文对比了 directed graphical model、undirected model 和 generative autoencoder，强调可学习的近似推断、MCMC、AIS 或 Markov-chain 混合是反复出现的成本和困难来源。MCMC 混合被特别称为依赖它的学习算法面临的一个重大难题。

GAN 将瓶颈转变为双网络训练博弈。这从生成中移除了 Markov-chain 采样，但在 generator 和 discriminator 之间引入了同步问题。论文指出了一个失败模式：如果 generator 在不伴随 discriminator 训练的情况下过度训练，它会将过多 z 值坍缩到相同的 x。因此，计算问题变成了平衡廉价的交替梯度步，而不是运行昂贵的推断链。这对 Theano 时代的 GPU backprop 非常适合，因为密集 MLP 的 forward 和 backward 传递可以被批量化并端到端求导。

方法适配

该方法通过使双方可微，将生成建模适配到标准神经网络硬件上。generator 将噪声向量 z 映射到数据空间，discriminator 将数据或生成样本映射到"为真"的概率。discriminator 被训练以区分真实样本和 generator 样本；generator 通过 discriminator 的梯度被训练，使其样本更可能被分类为真。这意味着系统可以用与判别式神经网络相同的 backpropagation 和小批量 SGD 机制来训练。

若干选择降低了计算成本。generator 仅在最底层接收噪声，避免了循环或迭代的潜变量推断。训练循环每个 generator 更新对应一个 discriminator 更新，即算法中报告的最廉价 k 设置。生成完全避免了 burn-in 和链状态：样本不相关，因为它们是独立噪声输入的直接输出，而非 Markov chain 的连续状态。代价是 likelihood p_g(x) 是隐式的，因此评估退回到如 Parzen-window 估计这样的近似方法。

证据

论文在 MNIST、Toronto Face Database（TFD）和 CIFAR-10 上评估 adversarial net。其定量表使用对生成样本的 Gaussian Parzen-window log-likelihood 估计。adversarial net 报告 MNIST 225 +/- 2 和 TFD 2057 +/- 26，对比 Deep GSN 在 MNIST 上 214 +/- 1.1、TFD 上 1890 +/- 29，DBN 在 MNIST 上 138 +/- 2、TFD 上 1909 +/- 66，以及 Stacked CAE 在 MNIST 上 121 +/- 1.6、TFD 上 2110 +/- 50。按后来评估标准这些结果较弱，但它们是该来源中的具体基准证据。

定性证据也与计算相关，因为采样廉价。论文展示了来自 MNIST、TFD 和 CIFAR-10 的生成样本，包括使用卷积 discriminator 和"deconvolutional"generator 的 CIFAR-10 设置。它强调生成样本之间不存在 Markov-chain 混合导致的相关性。报告的优势部分总结了系统主张：永远不需要 Markov chain，仅使用 backprop 来获取梯度，学习期间不需要推断。

历史影响

GAN 将 adversarial training 作为一种新的生成建模计算结构引入：在训练中花费计算用于两个可微网络之间的博弈，然后通过一次 generator 传递廉价采样。历史上，这构成了对以 likelihood 为中心的生成建模的重大替代方案。它将图像生成与监督深度学习中已经奏效的 GPU 友好要素对齐：小批量、backpropagation、分段线性单元和密集张量运算。

本卡片属于生成式媒体计算，因为突破不仅仅是视觉质量。它是计算花费位置的变化。GAN 不再为生成时的近似推断付费，而是为一次困难的训练博弈付费，并使推断几乎微不足道。

局限

论文对缺陷是明确的。不存在 p_g(x) 的显式表示，因此 likelihood 评估并非模型原生能力。discriminator 和 generator 必须保持同步，当 generator 将过多噪声输入映射到相同输出时训练可能坍缩。这是后来 GAN 工作必须用架构、目标和 regularization 来管理的 mode-collapse 问题的源头。

硬件证据也有限：未指明确切设备，因此任何 GPU/CPU 集群陈述都是从致谢和 Theano 语境推断而来。最后，原始证据早于 FID、Inception Score、precision/recall 和现代大规模图像基准。计算思想是持久的，但 2014 年论文的测量比后来的生成模型评估薄弱得多。

链接

计算范式：generative media compute
源 PDF 和抽取文本见上方元数据。
队列状态：read_complete。
方法索引：generative_models
Ledger 更新：compute bottlenecks