A Style-Based Generator Architecture for Generative Adversarial Networks
A Style-Based Generator Architecture for Generative Adversarial Networks - 中文验证版
英文原文卡片:stylegan_2018.md
状态:已翻译。
元数据
- 阅读状态:read complete
- 年份:2018
- 计算范式:生成式媒体计算 (
generative_media_compute) - PDF:2018-stylegan_2018.pdf
- 抽取文本:2018-stylegan_2018.txt
- PDF URL:https://arxiv.org/pdf/1812.04948.pdf
- OpenAlex:
- 引用计数来源/日期:
- 引用计数:
- 阅读卡创建日期:2026-06-15
计算设置
论文明确报告了训练设备:在配备 8 块 Tesla V100 GPU 的 NVIDIA DGX-1 上训练约一周。这将 StyleGAN 置于 Volta tensor-core、多 GPU 工作站/服务器时代,而非数据中心规模的训练范式。代码库基于官方的 TensorFlow 渐进式增长 GAN 实现构建,继承了判别器、随分辨率变化的 minibatch 大小、Adam 超参数以及生成器的指数移动平均(除非另有说明)。
主要图像目标是 FFHQ(论文引入的一个新的 70000 张图像数据集)上的 1024x1024 人脸合成。基于样式的生成器有 26.2M 可训练参数,而传统基线生成器为 23.1M。论文中所有 FID 均由 50000 张无截断的生成图像计算。改进后的 FFHQ 设置使用 R1 正则化,并将训练从 12M 图像延长到 25M 图像,因为 FID 持续下降的时间比使用 WGAN-GP 时更长。其他 LSUN 模型使用相同设置在 Bedrooms 和 Cats 上训练 70M 图像,Cars 上训练 46M 图像。
瓶颈
瓶颈是在有限的多 GPU 内存和稳定性下进行高分辨率对抗性卷积训练。一个 1024x1024 的生成器/判别器对必须在从姿态和布局到头发、雀斑和纹理的各个尺度上合成和判别图像。渐进式增长 GAN 通过在训练过程中逐步增长分辨率使这成为可能,但收敛仍然需要数百万张图像,并对损失函数、正则化、学习率和数据集伪影保持敏感。
第二个瓶颈是表示控制。传统的 GAN 生成器将潜码通过输入层输入,并让网络将高层结构、颜色、纹理和随机细节纠缠在一起。这不仅是可解释性问题:它意味着模型必须使用同一潜码通路来承载全局姿态和局部随机头发放置。在高分辨率下,强制一个潜码向量承载所有确定性和随机变化,使合成更难以控制和调试。
论文的计算设置很重要,因为解决方案必须在单台 8-V100 DGX-1 上保持可训练。它不能假设一个新的庞大判别器、额外的监督标签或推理时的昂贵搜索。因此,该方法改变了生成器的内部参数化,判别器和损失函数保持不变。
方法适配
StyleGAN 保留了渐进式增长 GAN 的训练范式,但重新设计了生成器。不在输入端仅输入 z,而是一个 8 层全连接映射网络将 z 映射到中间潜空间 W。学习到的仿射变换将 W 转换为每层样式,这些样式在每次卷积后控制自适应实例归一化。合成网络从一个学习到的 4x4 常数开始,而非传统的潜码输入。
该设计与 DGX-1 设置在计算上兼容。它增加了适量的参数,保留了密集卷积核,且不需要改变判别器。样式控制按分辨率局部化:粗糙层影响姿态、脸型和眼镜;中间层影响较小的面部特征和发型;精细层影响配色方案和微观结构。这使得生成器的多尺度计算与渐进式高分辨率训练进度相匹配。
论文还通过注入带学习到的每通道缩放因子的每层高斯噪声,将随机细节与潜码分离。这为网络提供了一个廉价的局部随机性源,用于头发、雀斑、织物和背景细节,而无需通过 W 强制执行这些效果。样式混合正则化随后训练一些图像在某一随机层切换两个潜码,阻止相邻样式变得过度相关。由于更深的映射网络在高学习率下可能变得不稳定,映射网络的学习率被降低了两个数量级。
证据
主要 FID 表显示了生成器改动的回报。在 FFHQ 上,基线渐进式增长 GAN 配置的 FID 从 8.04 开始。调优后的基线达到 5.25。添加映射网络和样式达到 4.85;移除传统输入为 4.88;添加噪声输入达到 4.42;添加混合正则化达到 4.40。在 CelebA-HQ 上,基线从 7.79 开始,最终配置报告为 5.17。
混合表显示为什么正则化对组合使用很重要。没有混合正则化时,FFHQ 模型在单一潜码测试下 FID 为 4.42,但在两个测试潜码下降至 8.22,四个潜码下为 17.41。使用 90% 混合正则化时,单潜码 FID 为 4.40,而两个、三个和四个潜码的 FID 分别为 5.11、6.88 和 9.03。这表明该方法不仅改善了静态图像质量;它还使每层计算对样式重组具有鲁棒性。
训练收敛附录将质量与长时间高分辨率运行联系起来。使用 R1 正则化时,FID 随训练持续下降,促使在 FFHQ 上从 12M 图像转向 25M 图像。论文将 8.4M 图像标记为训练达到完整 1024x1024 分辨率的点,之后 FID 仍在改善。其他数据集证据包括 LSUN Bedroom FID 2.65(256x256)、Cars FID 3.27(512x384)和 Cats FID 8.53(256x256)。
历史影响
StyleGAN 将高分辨率 GAN 从黑盒采样器转变为可控合成系统。从历史上看,计算成就不是一个更大的模型,而是对现有 DGX-1 规模卷积计算的更好内部分配:全局属性、中层特征、精细纹理和随机细节成为可分离的控制柄。这使得潜空间编辑、样式混合、W 空间截断以及后来的反演工作流成为图像生成实践的核心。
它还在扩散模型成为主导之前为 1024x1024 人脸生成设定了一个强有力的质量标杆。FFHQ 数据集、发布的代码、预训练网络以及感知路径长度和可分离性的自动化指标,使 StyleGAN 成为研究生成式表示的参考平台。
局限
该方法并未消除对抗性训练的负担。主要设置仍需要在 8-V100 DGX-1 上训练约一周,某些数据集需要更长的图像数量调度。训练仍然足够敏感,以至于论文为 FFHQ 更换了损失/正则化,调优了高分辨率学习率,并为稳定性降低了映射网络的学习率。
更好的 FID 也不意味着完全的 disentanglement。收敛附录指出,FID 的改善可能伴随着路径长度的上升,表明随着训练进行,表示变得更加纠缠。数据集质量仍然是一个限制:作者将某些 LSUN Bedroom 问题归因于继承的压缩伪影,而 Cats 由于姿态、缩放和背景的变化仍然困难。最后,该方法是 GAN 特有的;它改善了可控性和质量,但不提供扩散风格的似然训练或广泛的文本条件。
链接
- 计算范式:
history/compute_regimes/generative_media_compute/README.md - 源 PDF 和抽取文本见上方元数据。
- 队列状态:
read_complete - 方法索引:generative_models
- Ledger 更新:compute bottlenecks