High-Resolution Image Synthesis with Latent Diffusion Models
High-Resolution Image Synthesis with Latent Diffusion Models - 中文验证版
英文原文卡片:latent_diffusion_2021.md
状态:已翻译。
元数据
- 阅读状态:read complete
- 年份:2021
- 计算范式:生成式媒体计算 (
generative_media_compute) - PDF:2021-latent_diffusion_2021.pdf
- 抽取文本:2021-latent_diffusion_2021.txt
- PDF URL:https://arxiv.org/pdf/2112.10752.pdf
- OpenAlex:
- 引用计数来源/日期:
- 引用计数:
- 阅读卡创建日期:2026-06-15
计算设置
论文明确报告了大多数实验的加速器设置:"所有模型在单块 NVIDIA A100 上训练"出现在无条件和条件 LDM 的超参数表中,唯一的例外是表 15 中的 inpainting 模型在 8 块 V100 GPU 上训练。计算对比表将作者的 A100 时间转换为 V100-days,使用假定的 A100 对 V100 的 U-Net 为 2.2 倍加速比。这使得论文在单加速器可行性方面异常直接,适用于高分辨率的扩散工作。
设置涵盖若干模型大小和 batch 范式。无条件 256×256 模型使用潜在空间下采样因子,如 f=4 或 f=8,并根据数据集和潜在空间大小以 42 到 96 的 batch 训练。ImageNet 压缩分析训练 LDM-1、-2、-4、-8、-16 和 -32,在单块 A100 上进行 2M 迭代,模型大小约 391-395M,batch size 随潜在空间表示缩小而上升。条件任务包括在 LAION 上训练的 1.45B 文本到图像 LDM-8,390K 迭代,batch size 680;以及 ImageNet 类别条件 LDM-4,178K 迭代,batch size 1200。
瓶颈
瓶颈是在像素空间中进行重复的 U-Net 评估。扩散模型可以生成强图像,但训练需要对大量含噪像素空间样本进行梯度计算,采样需要串行地进行去噪步。论文指出,强大的像素空间扩散模型通常需要 150 到 1000 V100-days 训练,并且生成 50K 样本在所引用的 ADM 设置中在单块 A100 上约需五天。
这既是内存带宽问题,也是空间分辨率问题,同样是一个 FLOP 问题。一张 256×256 或 512×512 的 RGB 图像携带着大量对于视觉而言不易察觉或语义上不重要的高频细节,而像素空间的扩散 U-Net 仍然在完整网格上评估卷积和注意力。模型可能在损失中降低某些含噪 timestep 的权重,但主干网络和梯度仍然针对所有像素计算。采样时则将该昂贵的主干网络重复数十到数千次。
论文的任务是在不放弃扩散的稳定似然式训练和模态覆盖的前提下降低训练和推理成本。因此瓶颈不是"扩散是否可行",而是"高分辨率扩散是否能在每个模型需花费数百 GPU-days 的实验室之外变得可及"。
方法适配
Latent Diffusion 将图像合成分解为两个计算阶段。首先,一个自编码器将 RGB 图像 x 映射到具有空间下采样因子 f 的潜在空间 z,使用感知损失和对抗损失使重建保留在图像流形上。其次,扩散模型在 z 上而非像素上运行。采样的潜在空间可通过一次解码器过程重建回图像空间,因此昂贵的迭代去噪循环在一个更小的张量上进行。
关键的适配是适度压缩而非极端压缩。先前的潜在空间自回归系统需要激进的空间降维,因为它们的先验很昂贵;LDM 可以保留一个二维的潜在空间网格并使用卷积 U-Net,从而保持空间归纳偏差。论文研究了从 1 到 32 的 f 值,发现 f=4 到 f=8 是有用的计算-质量区域。过少的压缩会使大部分像素成本保留;过多的压缩会丢失信息并限制保真度上限。
条件输入同样受计算结构影响。交叉注意力层将文本、类别标签、布局或其他条件注入 U-Net,而无需为每种模态构建单独的架构。这使得相同的潜在空间去噪主干网络可复用于文本到图像、布局到图像、类别条件 ImageNet、超分辨率、语义合成和 inpainting。
证据
最强有力的计算证据是表 18。在 ImageNet 256×256 上,ADM 在 250 DDIM 步下被列为 916 V100-days、单块 A100 上 0.12 samples/sec、FID 10.94 和 554M 参数。LDM-8 在 200 DDIM 步下被列为 79 V100-days、1.9 samples/sec、FID 17.41 和 395M 参数。带引导的 LDM-8 变体增加了分类器计算,总计 91 V100-days 并达到 FID 8.11。LDM-4-G 使用无分类器引导达到 FID 3.60、271 V100-days 和 0.4 samples/sec,与所列的 ADM 引导行相当或更优,同时使用的训练计算显著少于 ADM-G 的 962 V100-days 总数。
论文还报告了 f 的重要性。在 ImageNet 2M 步分析中,小的下采样因子 LDM-1 和 LDM-2 训练缓慢,而 f 过大会导致保真度停滞。作者描述了像素空间 LDM-1 与 LDM-8 在 2M 步后 FID 差距为 38。在采样速度与 FID 的图上,LDM-4 和 LDM-8 相对于像素空间 LDM-1 同时改善了样本质量和吞吐量。
任务证据是广泛的。无条件 LDM-4 在 CelebA-HQ 上报告 FID 5.11、FFHQ 上 4.98;LDM-8 在 LSUN-Churches 上为 4.02;LDM-4 在 LSUN-Bedrooms 上为 2.95。在 MS-COCO 256×256 的文本到图像中,LDM-KL-8-G 以 1.45B 模型和 250 DDIM 步达到 FID 12.63 和 IS 30.29,接近 GLIDE 的 12.24,但使用的参数远少于 GLIDE 的 6B。对于超分辨率,LDM-4 在 100 步和额外训练下达到 2.6/4.6 FID,而在相同额外训练对比下像素 DM 基线为 5.1/7.1。
历史影响
Latent Diffusion 改变了图像生成的计算经济学。它没有将像素空间去噪扩展到对大多数团队都过于昂贵为止,而是表明一个可复用的感知压缩器可以消除大部分空间负担,同时保留足够的信息供生成模型合成高质量图像。这直接奠定了 Stable Diffusion 式模式:训练一个自编码器,在潜在空间中运行条件 U-Net,使用交叉注意力处理文本,并用 DDIM 或相关采样器采样。
在历史上,该论文也是 GAN 时代高分辨率图像合成与扩散时代可控性之间的桥梁。GAN 推理快但难以可靠地训练和条件化;像素扩散稳定且可控但速度慢。LDM 保留了扩散的条件灵活性,同时使训练和采样在许多实验中适配单块 A100 的研究工作流。
局限
自编码器是一个新的质量上限。如果压缩丢弃了信息,扩散先验就无法可靠地恢复它;如果压缩过于温和,计算节约就会消失。论文的 f 扫描使这一权衡明确化:LDM-32 压缩过度以至于损害质量,而 LDM-1 和 LDM-2 保留了过多的像素负担。
该方法还增加了组件和评估复杂度。第一阶段自编码器具有自己的重建损失、正则化以及可能产生的伪影。部分结果依赖引导、分类器计算或任务特定的条件输入。文本到图像的质量具有竞争力但并非一致最佳,全局场景的连贯性对于复杂提示仍然可能失败。最后,尽管许多实验在单块 A100 上适配工作,但当包含数据、消融和更高分辨率时,前沿级别的文本到图像训练仍然积累了大量总计算量。