Improved Denoising Diffusion Probabilistic Models
Improved Denoising Diffusion Probabilistic Models - 中文验证版
英文原文卡片:improved_ddpm_2021.md
状态:已翻译。
元数据
- Slug:
improved_ddpm_2021 - 年份: 2021
- 会议: ICML
- 作者: Alex Nichol、Prafulla Dhariwal
- 阅读状态: read complete
- 计算范式: 生成式媒体计算 (
generative_media_compute) - 主要来源: PDF、抽取文本
- 阅读卡创建日期: 2026-06-15
计算设置
论文未指明确切的训练硬件、GPU 型号、加速器数量或集群拓扑。它确实提到使用完整的 4000 步调度采样在"现代 GPU"上需要数分钟,附录提到更大规模的类别条件 ImageNet 64×64 实验将 batch size 扩大到 2048"以便在更多 GPU 上更快训练"。按照项目规则,设备上下文推断为 2021 年 OpenAI 的 GPU 训练基础设施,可能是 V100 级别的多 GPU 系统,但该硬件推断未在论文中明确列出。
计算规模通过模型大小、扩散步数和训练迭代来指定。大多数模型使用 4000 个扩散步。C=128 的 ImageNet 64×64 U-Net 约具有 120M 参数且每次前向约 39B FLOPs。扩展研究使用了 30M、68M、120M 和 270M 参数的模型。类别条件 ImageNet 64×64 使用 100M 和 270M 参数模型,以 250 步采样。标准实验大多使用 batch size 128、Adam、学习率 1e-4 和 EMA 0.9999;较大的类别条件运行使用 batch size 2048。
瓶颈
瓶颈是去噪网络评估的次数。如果一个 39B FLOPs 的 U-Net 需要跑 4000 个逆向步,则生成一张图像需要巨大的串行推理工作。来源直接指出了这一点:所有模型在 4000 个扩散步上训练,生成一个样本在"现代 GPU"上需要数分钟。这是部署瓶颈,尤其与单次 GAN 生成相比。
还存在一个训练目标瓶颈。直接优化变分下界(L_vlb)应当改善似然,但论文发现它在多样化的 ImageNet 64×64 上难以优化,因为梯度比混合目标噪声更大。噪声梯度浪费训练计算:需要更多迭代或更大 batch 来提取相同信号。因此论文的计算问题有两方面:在推理时减少采样次数,在似然训练期间减少梯度噪声。
方法适配
关键的适配是在学习逆向过程均值的同时学习方差。Ho 等人的 DDPM 固定了逆向方差;本文反向过程方差参数化为后验方差上下界之间的插值。这带来了一个计算副作用:当采样器使用更短的 timestep 子序列时,学习到的方差可以针对该更短过程重新缩放,使得在不重新训练的情况下使用更少的逆向步变得可行。
第二个适配是目标函数设计。论文使用将 VLB 与简化去噪目标结合的混合目标。这在改善对数似然的同时不会像直接 VLB 优化那样显著牺牲样本质量。对于直接 VLB,作者加入了按 timestep 的重要性采样,维护损失历史并按估计的二阶矩比例采样 t。这使梯度努力集中在 VLB 项重要的位置,并降低了目标噪声。
第三个适配是跨步采样。一个在 4000 步上训练的模型使用 K 个均匀间隔的 timestep 子集采样,K 测试值为 25、50、100、200、400、1000 和 4000。这使得推理成本随 K 线性变化。当 K 减小时,学习方差的 L_hybrid 模型保持 FID 的能力远优于固定方差模型。
证据
似然证据从 4000 步调度开始。在 ImageNet 64×64 上,Ho 等人使用 1000 步的设置经过 200K 迭代达到 3.99 bits/dim;增加到 4000 步改进为 3.77。在最终对比中,Improved DDPM 在 ImageNet 64×64 上达到 3.53 bits/dim,在 CIFAR-10 上为 2.94,与卷积似然模型相当但低于一些 Transformer 图像模型。
采样速度证据与设备最为相关。完整的 4000 步采样在"现代 GPU"上耗时数分钟;减少步数使采样速度降至秒级。图 8 评估了 25 到 4000 步。学习方差的 L_hybrid 模型在减少步数采样下保持质量,100 步足以在完全训练的模型中达到接近最优的 FID。在此对比中,DDIM 在低于 50 步时更好,但在 50 步或更多时表现更差。
质量/多样性证据来自类别条件 ImageNet 64×64 与 BigGAN-deep 的对比。270M 参数的扩散模型训练 250K 迭代,使用 250 个采样步,达到 FID 2.92、precision 0.82、recall 0.71。100M 参数模型训练 1.7M 步达到 FID 6.92、precision 0.77、recall 0.72。recall 值支持了扩散模型在类似 FID 下覆盖更多目标分布的论断。
扩展证据使用理论训练计算量。对于 ImageNet 64×64,作者训练了第一层通道数为 64、96、128 和 192 的模型,对应约 30M、68M、120M 和 270M 参数。FID 在对数-对数图上相对于计算量近似线性改善,而 NLL 改善则不那么清晰。x 轴假设了完整的硬件利用率,因此该结果更适合解读为计算扩展分析,而非实测的 wall-clock 扩展定律。
历史影响
Improved DDPM 帮助将扩散模型从一个优雅但缓慢的似然模型转变为一个实用的生成式媒体计算路径。历史性的转变在于将推理步数暴露为一个可控的预算。学习到的方差和跨步调度将逆向链从"始终运行训练时间长度"转变为"以步数换取质量",随后的扩散系统通过采样器、蒸馏、级联和潜在模型对此进行了利用。
论文还将扩散质量与训练计算联系起来。通过展示 FID 随模型大小和理论 FLOPs 的平滑扩展,它使扩散看起来像一个可扩展的加速器工作负载,而非一个脆弱的采样技巧,为后续的大型 U-Net、潜在扩散和 Transformer 扩散骨干网奠定了基础。
局限
- 确切的硬件未列出;GPU 时代和可能的基础设施是推断的,并非来源所述。
- 即使 50 到 100 个去噪步仍然远慢于单次生成。
- 完整的 4000 步采样据描述在"现代 GPU"上每样本耗时数分钟。
- 论文指出 FID 可能过拟合,或与似然的变化方向不同,因此计算改进不应仅凭 FID 来解读。
- ImageNet 256×256 扩展使用了级联的 64×64 加上上采样器模型,增加了额外的计算阶段。