Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks - 中文验证版
英文原文卡片:cyclegan_2017.md
状态:已翻译。
元数据
- 阅读状态:read complete
- 年份:2017
- 计算范式:生成式媒体计算 (
generative_media_compute) - PDF:2017-cyclegan_2017.pdf
- 抽取文本:2017-cyclegan_2017.txt
- PDF URL:https://arxiv.org/pdf/1703.10593.pdf
- OpenAlex:
- 引用计数来源/日期:
- 引用计数:
- 阅读卡创建日期:2026-06-15
计算设置
论文未列出具体 GPU 型号、设备数量、内存大小或 wall-clock 训练时间。它鸣谢了 NVIDIA 的硬件捐赠,发布实现为 PyTorch 和 Torch,但原文未陈述"在 X 个 GPU 上训练"。按项目规则,设置根据 2017 研究时代和论文的 batch/分辨率选择推断为单块或少量 Titan X/Pascal 时代的 NVIDIA GPU。
这些细节仍具计算信息量。所有网络从头训练,使用 Adam、batch size 1、学习率 0.0002、cycle consistency lambda 10、固定学习率 100 epoch、然后线性衰减至零再训练 100 epoch。主要实验在 256×256 图像上训练,128×128 图像使用 6 个残差块,256×256 或更高使用 9 个残差块。判别器为 70×70 PatchGAN,训练使用 50 张先前生成图像的缓冲区以稳定判别器更新。若干数据集小到适合 GPU 实验:1,096 张地图/航拍图像(256×256)、939 张马和 1,177 张斑马 ImageNet 图像、996 个苹果和 1,020 个橙子,以及 1,273 张夏季和 854 张冬季 Yosemite 照片。
瓶颈
瓶颈不是原始标签量,而是缺乏配对监督。在 CycleGAN 的设置中,没有给定源图像的对齐目标。仅用对抗损失可能使输出看起来像目标域却忽略源内容、改变语义身份或将许多输入坍缩为少量似真输出。这是一个欠约束的优化问题,因 GAN 不稳定性而加剧。
计算成本相对于单向翻译模型也翻倍。CycleGAN 训练两个生成器和两个判别器,分别用于 X→Y 和 Y→X。在 256×256 分辨率下使用残差生成器,这昂贵到使用 batch size 1。因此方法必须在保持低内存的同时保留足够信号以维持稳定对抗训练。patch 级判别、实例归一化、历史缓冲区和最小二乘损失都应对这一实际 GPU 时代的瓶颈。
方法适配
该方法通过用 cycle consistency 替代配对像素监督,将图像翻译适配到可用数据和 GPU 内存。生成器 G 将 X 映射到 Y,F 将 Y 映射回 X。对抗损失使生成图像匹配目标域分布。循环损失强制 F(G(x)) 重建 x、G(F(y)) 重建 y,为每个未配对源图像提供自监督重建路径。
架构选择适配 2017 图像 GAN 硬件。Johnson 式残差生成器使用降采样、残差块和上采样,而非巨大的全分辨率堆叠。实例归一化降低风格/对比度敏感性,在神经风格迁移中常见。70×70 PatchGAN 判别器对重叠块而非整图分类,减少参数数量并允许在不同图像尺寸上全卷积运行。最小二乘 GAN 损失稳定训练,相对于原始负对数似然 GAN 损失改善了图像质量。50 张图像重放缓冲区通过对历史生成图像而非仅最新生成器输出来更新判别器,减少振荡。
对绘画转照片和相关颜色敏感任务,身份损失是另一计算可感知的适配。当真实目标域图像通过生成器时,它增加 L1 惩罚,阻止不必要的色调变化而无需配对目标。这比收集对齐样本更便宜,比增大模型规模更直接。
证据
证据结合了定量配对数据集测试和未配对应用。在 Cityscapes 标签→照片上,CycleGAN 达到 FCN 分数:0.58 像素准确率、0.22 类别准确率、0.16 类别 IOU。这低于配对 pix2pix 的上界 0.85、0.40、0.32,但高于表中报告的未配对基线,包括 CoGAN、BiGAN/ALI、SimGAN 和特征损失 GAN 变体。消融表中,仅循环损失仅得 0.10/0.05/0.02,仅 GAN 得 0.53/0.11/0.07,完整 CycleGAN 得 0.58/0.22/0.16,支持对抗项和循环项均属必要的论断。
地图↔航拍照片的 AMT 感知研究也具有计算相关性,因为它评估了相同架构下 256×256 生成图像。作者报告 CycleGAN 在约四分之一的试验中在两个方向上骗过参与者,而基线几乎从不成功。脚注报告了 CycleGAN 和 pix2pix 在 512×512 下的额外训练,性能可比:地图→航拍照片 CycleGAN 为 37.5%±3.6%、pix2pix 为 33.9%±3.1%,航拍照片→地图为 16.5%±4.1% 对 8.5%±2.6%。
定性应用展示了未配对数据的收益:马↔斑马、苹果↔橙子、夏季↔冬季 Yosemite、莫奈/照片、梵高/浮世绘/塞尚风格,以及 iPhone 转 DSLR 风格迁移。列出的数据集大小和分辨率显示该方法是为领域级图像集合而非对齐图像对设计的。
历史影响
CycleGAN 改变了生成式媒体的计算/数据权衡。实践者可以将 GPU 训练时间花在未配对领域上的两个对抗循环上,而非花费精力在配对数据收集或仿真管线上。这使得用从 Flickr、ImageNet、Google Maps 或艺术数据集中抓取的普通图像集合即可实现翻译演示。
历史上,该论文还标准化了一个持久的图像域翻译配方:残差生成器、PatchGAN 判别器、cycle consistency、身份保留和小批量实例归一化训练。它没有解决所有生成建模,但使未配对翻译成为主流 GPU 工作负载,并影响了后来的风格迁移、领域自适应和图像编辑工作。
局限
论文明确表示结果远非一致正面。它在外观、颜色和纹理变化上效果最好;在大几何变换上困难。狗→猫示例退化为最小变化,马→斑马模型在骑马图像上失败,因为 ImageNet 野生马和斑马训练分布不包含该情形。这是数据支持限制,而非仅是模型容量限制。
在存在对齐图像对的情况下,CycleGAN 仍低于配对 pix2pix。循环一致性可保留输入结构,但不能保证语义正确性;多种映射可能满足损失,标签置换或细微内容变化在目标下可能仍然有效。硬件未完全报告,因此无法从论文重建精确训练成本和跨设备可复现性。batch-1 设置对内存实用但噪声大,双生成器/双判别器设计相比单向配对翻译大致使模型组件翻倍。
链接
- 计算范式:
history/compute_regimes/generative_media_compute/README.md - 来源 PDF 和抽取文本见上方元数据。
- 队列状态:
read_complete。 - 方法索引:generative_models、cnn
- Ledger 更新:compute bottlenecks