Score-Based Generative Modeling through Stochastic Differential Equations - 中文验证版

英文原文卡片：score_sde_2020.md

状态：已翻译。

元数据

Reading status: read complete
年份：2020
计算范式：生成式媒体计算 (generative_media_compute)
PDF：2020-score_sde_2020.pdf
抽取文本：2020-score_sde_2020.txt
PDF URL：https://arxiv.org/pdf/2011.13456.pdf
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期：2026-06-15

计算设置

论文未列出确切的硬件或加速器数量。按项目规则，研究时设置应视为推断的 2020 年代加速器基础设施，可能是 V100/TPU 级多 GPU 或 TPU 训练，但卡片不应将特定设备归于作者。来源确实给出了异常具体的规模代理。CIFAR-10 和 64 x 64 CelebA 架构搜索训练模型 1.3M 迭代（除非另有说明），每 50k 迭代保存一次检查点，在 50k 生成样本上计算 FID。附录说明 CIFAR-10 上 batch size 固定为 128，LSUN bedroom/church 256 x 256 上为 64。

高分辨率实验是最强的计算信号。对于 1024 x 1024 CelebA-HQ，作者训练了修改后的 NCSN++ 式模型，使用连续目标、batch size 8、EMA 率 0.9999 和约 2.4M 训练迭代。模型使用离散化为 2000 步的 predictor-corrector 采样器采样，每个 predictor 更新使用一个逆向 diffusion predictor 和一个 Langevin corrector。

瓶颈

瓶颈不仅是拟合分数网络，而是在采样时花费足够的神经网络评估以将噪声转化为高质量图像。每个逆向时间 SDE 求解器步骤调用分数网络，predictor-corrector（PC）变体在 predictor 调用之上额外增加 MCMC 校正调用。论文以"score function evaluations 的同等数量"比较采样器，这是此处正确的计算货币。PC1000 采样器有 1000 个 predictor 步骤和 1000 个 corrector 步骤，相对于 P1000 大约加倍了分数网络评估。

第二个瓶颈是数值精度与挂钟成本的权衡。概率流 ODE 通过神经 ODE 给出精确似然计算，但 ODE 求解器在容差和函数评估次数之间进行权衡。附录设置使用 SciPy solve_ivp，绝对和相对容差为 1e-5 用于似然报告。更大的误差容差减少 NFE，而更紧的容差和更多采样步骤提高延迟。

内存也随分辨率急剧扩展。论文未详细说明激活内存，但其报告的 batch 选择显示了压力：CIFAR-10 batch 128，256 x 256 LSUN batch 64，1024 x 1024 CelebA-HQ batch 8。这与卷积分数网络一致，其每个样本的激活张量随图像面积增长，且数千次采样评估使大 batch 困难。

方法适配

核心适配是将基于分数的生成呈现为求解器问题。SMLD 和 DDPM 变为连续时间 SDE 的特殊离散化。论文训练一个时间依赖的分数网络，然后允许多种逆向时间数值方法可以替换进来：祖先采样、逆向扩散、Euler-Maruyama、Langevin corrector 和概率流 ODE 求解器，而非承诺一个固定的祖先采样器。

这种设计以三种方式适配加速器时代约束。首先，样本质量可以通过花费更多批处理前向传播来调优，而不是从头重新训练；CIFAR-10 生成使用 batch size 1024。其次，使用随机 Fourier 特征时间嵌入的连续训练改善了与任意时间步的兼容性，这在求解器需要非整数时间或作者从离散 DDPM 式步骤切换到 Euler-Maruyama predictor 时很有帮助。第三，概率流 ODE 重用了学习到的分数场用于似然，将生成模型转化为类流密度估计器，而无需最大似然训练。

该方法还适配数据集特定的计算。对于 VP SDE，作者仅在 CIFAR-10 上运行"以节省计算"，并在 0.25M 和 0.5M 迭代之间比较检查点，因为 FID 在 0.5M 后恶化。对于改进的连续模型，他们将训练减少到 0.95M 迭代，然后将每个分辨率的残差块加倍，以更多每步计算换取质量。

证据

采样器表格直接支持计算权衡。在 CIFAR-10 上，PC 采样器在相同基础离散化下一致改善 FID，优于仅 predictor 变体。例如，在 VP SDE 下使用概率流 predictor，P1000 给出 FID 3.59，P2000 给出 3.23，PC1000 给出 3.06。在 VE SDE 下，概率流 P1000 较差（15.41），P2000 改善到 10.54，但 PC1000 达到 3.51。论文的解读是，在 prediction 和 correction 之间拆分计算通常优于仅加倍 predictor 步数，而仅 corrector 采样可能需要远更多的计算才能匹配混合采样器。

训练和评估规模也是具体的。CIFAR-10 上 batch size 为 128，LSUN 上为 64；CIFAR-10 生成使用 batch 1024，LSUN 上为 8。大多数模型训练 1.3M 迭代；改进的连续 CIFAR 模型训练 0.95M 迭代；1024 x 1024 CelebA-HQ 使用 batch 8 和约 2.4M 迭代。FID 使用 TensorFlow GAN 在 50k 样本上计算。

定量回报很大。在 CIFAR-10 上，NCSN++ continuous deep VE 达到 FID 2.20 和 Inception Score 9.89，对比表格中 DDPM 的 FID 3.17 和 IS 9.46。面向似然的 DDPM++ continuous deep sub-VP 模型在均匀去量化的 CIFAR-10 上达到 2.99 bits/dim，而未使用最大似然训练。

历史影响

Score SDE 将扩散和分数模型重新表述为求解器和计算设计空间。此前的分数模型和 DDPM 可以解读为独立算法；本文表明它们是共享连续时间表述内的点。后来的扩散工作通常将采样器设计、NFE 降低、ODE/SDE 选择和引导（guidance）视为一等计算杠杆，而非附带的实现细节。

论文还使推理预算可见：训练一个分数场，然后决定花费多少神经函数评估以及如何分配它们。这种表述自然地引向后来关于快速采样器、蒸馏、潜在扩散和调度器设计的工作。

局限

本卡片的主要局限是硬件不透明：未报告确切的 GPU/TPU 类型、加速器数量、挂钟训练时间或内存占用。设备声明因此在项目规则下仍为推断。该方法还具有陡峭的推理成本剖面。PC 采样器提高样本质量，但花费额外的分数评估；高分辨率生成使用非常小的 batch size；似然计算依赖神经 ODE 容差和潜在的高 NFE。

报告的改进与架构和采样器选择紧密耦合：连续时间嵌入、更深的残差栈、predictor 选择、信噪比网格以及数据集特定的步数计数。迁移到不同的架构、分辨率或硬件预算可能改变最优采样器和质量-成本点。

链接

计算范式：history/compute_regimes/generative_media_compute/README.md
来源 PDF 和抽取文本见上方元数据。
队列状态：read_complete。
方法索引：diffusion、generative_models
Ledger 更新：compute bottlenecks