Denoising Diffusion Probabilistic Models
Denoising Diffusion Probabilistic Models - 中文验证版
英文原文卡片:ddpm_2020.md
状态:已翻译。
元数据
- Reading status: read complete
- 年份:2020
- 计算范式:生成式媒体计算 (
generative_media_compute) - PDF:2020-ddpm_2020.pdf
- 抽取文本:2020-ddpm_2020.txt
- PDF URL:https://arxiv.org/pdf/2006.11239.pdf
- OpenAlex:
- 引用计数来源/日期:
- 引用计数:
- 阅读卡创建日期:2026-06-15
计算设置
论文明确列出了加速器类别:所有实验均使用 TPU v3-8,作者描述为类似 8 块 V100 GPU。这足以避免对主要训练运行进行设备年代推断。附录给出了模型大小和吞吐量。CIFAR-10 模型有 35.7M 参数;LSUN 和 CelebA-HQ 256x256 模型有 114M 参数;更大的 LSUN Bedroom 变体约有 256M 参数。CIFAR 模型以 batch size 128 每秒 21 步的速度训练,约 10.6 小时达到 800K 步。采样一批 256 张 CIFAR 图像需要 17 秒。
对于 256x256 图像,计算形态急剧变化。CelebA-HQ/LSUN 模型以 batch size 64 每秒 2.2 步的速度训练,采样 128 张图像需要 300 秒。论文报告 CelebA-HQ 训练 0.5M 步,LSUN Bedroom 2.4M 步,LSUN Cat 1.8M 步,LSUN Church 1.2M 步,更大的 LSUN Bedroom 模型 1.15M 步。这些数字使卡片的设备故事具体化:一个 TPU v3-8 等效设置可以训练这些模型,但顺序去噪采样器已经是占主导地位的推理时税收。
瓶颈
DDPM 的瓶颈是长马尔可夫逆向链。论文对所有实验设 T = 1000,因此生成一个样本通常需要 1000 次顺序神经网络评估。U-Net 评估是加速器友好的卷积工作负载,但链在时间上是串行的:步骤 t 依赖于步骤 t+1 的输出,因此普通批处理有助于吞吐量,但不会消除每个样本的延迟。这就是为什么附录可以报告 CIFAR 训练每秒 21 步,而采样 256 张 CIFAR 图像仍需 17 秒。
第二个瓶颈是分辨率。从 32x32 CIFAR 迁移到 256x256 LSUN/CelebA 会增加激活内存和卷积 FLOPs,使 batch size 从 128 降至 64,训练吞吐量从每秒 21 步降至每秒 2.2 步。采样也延长到 256x256 下 128 张图像需要 300 秒。因此,该方法以 GAN 式单次生成为代价,换取了更容易训练但采样昂贵的计算结构。
方法适配
该模型通过使每个逆向步骤成为共享参数的去噪问题来适配此计算结构。逆向过程以类似 unmasked PixelCNN++ 和 Wide ResNet 的 U-Net 骨干表示,含有 group normalization、多分辨率残差块、16x16 特征图上的自注意力,以及注入残差块的 Transformer 正弦时间步嵌入。在所有时间步共享一个网络避免了存储 1000 个独立的去噪器;时间步嵌入使一个驻留在加速器上的模型能够条件化于噪声水平。
简化的训练目标也是一种计算适配。论文没有以其原始加权形式优化完整变分界,而是训练网络用简单的平方误差损失预测添加的噪声。作者报告该目标更简单且提高样本质量,它将训练转化为在随机时间步上的标准小批量监督去噪。从 x_0 到噪声 x_t 的闭式采样使训练期间前向过程廉价:模型无需模拟所有之前的加噪步骤即可在特定 t 训练。代价在推理时支付,此时逆向链保持顺序性。
证据
论文的主要 CIFAR-10 证据是,简化目标达到 Inception Score 9.46 +/- 0.11 和 FID 3.17,NLL 不超过 3.75 bits/dim。作者指出 FID 按标准实践在训练集上计算,测试集 FID 为 5.24。消融表显示目标为何重要:epsilon 预测 L_simple 设置在 FID 上远优于附近列出的固定各向同性变分目标结果。
较大图像证据同时显示质量和成本。报告的 LSUN FID:Bedroom 6.36、Church 7.89、Cat 19.75。这些与上述吞吐量数字关联:batch 64 下每秒 2.2 步训练,256x256 下采样 128 张图像需 300 秒。论文还指出,大多数超参数搜索在 CIFAR-10 上执行,因为较大模型受内存和计算约束,这是关于设备预算如何塑造实验设计的直接陈述。
历史影响
DDPM 通过展示许多廉价去噪步骤可以在样本质量上击败或接近同时代 GAN,即使采样器慢得多,重新确立了扩散作为高保真图像生成路径的地位。其计算结构成为后来扩散工作的模板:用随机时间步监督训练大型去噪器,然后通过学习方差、更少步的求解器、蒸馏、潜在空间或更强的骨干网络来改进采样端。
历史转变很重要,因为原论文并未解决推理预算问题。它把质量论证做得如此有力,以至于下一波工作可以将采样加速视为显而易见的瓶颈。
局限
局限在设备数字中是明确的。1000 步链使生成比 GAN 前向传播慢得多,且 256x256 采样器在所声明的 TPU v3-8 等效设置上需要数分钟才能处理一批。批处理可以摊销加速器利用率,但无法使单张图像变为一次通过。
似然也非主要强项。CIFAR 模型产生强样本,但论文指出其码长无法与专门的似然模型(如自回归密度估计器)竞争。实验也依赖固定的 T = 1000,未进行广泛的搜索,作者报告较大模型的超参数搜索受内存和计算限制。DDPM 的结果因此是一次质量突破,带有一个明确的开放系统问题:在不丢失去噪质量的前提下使扩散采样更廉价。
链接
- 计算范式:
history/compute_regimes/generative_media_compute/README.md - 来源 PDF 和抽取文本见上方元数据。
- 队列状态:
read_complete。 - 方法索引:diffusion、generative_models
- Ledger 更新:compute bottlenecks