Score-Based Generative Modeling through Stochastic Differential Equations
Score-Based Generative Modeling through Stochastic Differential Equations - 中文验证版
英文原文卡片:score_sde_2020.md
状态:已翻译。
元数据
- Reading status: read complete
- 年份:2020
- 计算范式:生成式媒体计算 (
generative_media_compute) - PDF:2020-score_sde_2020.pdf
- 抽取文本:2020-score_sde_2020.txt
- PDF URL:https://arxiv.org/pdf/2011.13456.pdf
- OpenAlex:
- 引用计数来源/日期:
- 引用计数:
- 阅读卡创建日期:2026-06-15
计算设置
论文未列出确切的硬件或加速器数量。按项目规则,研究时设置应视为推断的 2020 年代加速器基础设施,可能是 V100/TPU 级多 GPU 或 TPU 训练,但卡片不应将特定设备归于作者。来源确实给出了异常具体的规模代理。CIFAR-10 和 64 x 64 CelebA 架构搜索训练模型 1.3M 迭代(除非另有说明),每 50k 迭代保存一次检查点,在 50k 生成样本上计算 FID。附录说明 CIFAR-10 上 batch size 固定为 128,LSUN bedroom/church 256 x 256 上为 64。
高分辨率实验是最强的计算信号。对于 1024 x 1024 CelebA-HQ,作者训练了修改后的 NCSN++ 式模型,使用连续目标、batch size 8、EMA 率 0.9999 和约 2.4M 训练迭代。模型使用离散化为 2000 步的 predictor-corrector 采样器采样,每个 predictor 更新使用一个逆向 diffusion predictor 和一个 Langevin corrector。
瓶颈
瓶颈不仅是拟合分数网络,而是在采样时花费足够的神经网络评估以将噪声转化为高质量图像。每个逆向时间 SDE 求解器步骤调用分数网络,predictor-corrector(PC)变体在 predictor 调用之上额外增加 MCMC 校正调用。论文以"score function evaluations 的同等数量"比较采样器,这是此处正确的计算货币。PC1000 采样器有 1000 个 predictor 步骤和 1000 个 corrector 步骤,相对于 P1000 大约加倍了分数网络评估。
第二个瓶颈是数值精度与挂钟成本的权衡。概率流 ODE 通过神经 ODE 给出精确似然计算,但 ODE 求解器在容差和函数评估次数之间进行权衡。附录设置使用 SciPy solve_ivp,绝对和相对容差为 1e-5 用于似然报告。更大的误差容差减少 NFE,而更紧的容差和更多采样步骤提高延迟。
内存也随分辨率急剧扩展。论文未详细说明激活内存,但其报告的 batch 选择显示了压力:CIFAR-10 batch 128,256 x 256 LSUN batch 64,1024 x 1024 CelebA-HQ batch 8。这与卷积分数网络一致,其每个样本的激活张量随图像面积增长,且数千次采样评估使大 batch 困难。
方法适配
核心适配是将基于分数的生成呈现为求解器问题。SMLD 和 DDPM 变为连续时间 SDE 的特殊离散化。论文训练一个时间依赖的分数网络,然后允许多种逆向时间数值方法可以替换进来:祖先采样、逆向扩散、Euler-Maruyama、Langevin corrector 和概率流 ODE 求解器,而非承诺一个固定的祖先采样器。
这种设计以三种方式适配加速器时代约束。首先,样本质量可以通过花费更多批处理前向传播来调优,而不是从头重新训练;CIFAR-10 生成使用 batch size 1024。其次,使用随机 Fourier 特征时间嵌入的连续训练改善了与任意时间步的兼容性,这在求解器需要非整数时间或作者从离散 DDPM 式步骤切换到 Euler-Maruyama predictor 时很有帮助。第三,概率流 ODE 重用了学习到的分数场用于似然,将生成模型转化为类流密度估计器,而无需最大似然训练。
该方法还适配数据集特定的计算。对于 VP SDE,作者仅在 CIFAR-10 上运行"以节省计算",并在 0.25M 和 0.5M 迭代之间比较检查点,因为 FID 在 0.5M 后恶化。对于改进的连续模型,他们将训练减少到 0.95M 迭代,然后将每个分辨率的残差块加倍,以更多每步计算换取质量。
证据
采样器表格直接支持计算权衡。在 CIFAR-10 上,PC 采样器在相同基础离散化下一致改善 FID,优于仅 predictor 变体。例如,在 VP SDE 下使用概率流 predictor,P1000 给出 FID 3.59,P2000 给出 3.23,PC1000 给出 3.06。在 VE SDE 下,概率流 P1000 较差(15.41),P2000 改善到 10.54,但 PC1000 达到 3.51。论文的解读是,在 prediction 和 correction 之间拆分计算通常优于仅加倍 predictor 步数,而仅 corrector 采样可能需要远更多的计算才能匹配混合采样器。
训练和评估规模也是具体的。CIFAR-10 上 batch size 为 128,LSUN 上为 64;CIFAR-10 生成使用 batch 1024,LSUN 上为 8。大多数模型训练 1.3M 迭代;改进的连续 CIFAR 模型训练 0.95M 迭代;1024 x 1024 CelebA-HQ 使用 batch 8 和约 2.4M 迭代。FID 使用 TensorFlow GAN 在 50k 样本上计算。
定量回报很大。在 CIFAR-10 上,NCSN++ continuous deep VE 达到 FID 2.20 和 Inception Score 9.89,对比表格中 DDPM 的 FID 3.17 和 IS 9.46。面向似然的 DDPM++ continuous deep sub-VP 模型在均匀去量化的 CIFAR-10 上达到 2.99 bits/dim,而未使用最大似然训练。
历史影响
Score SDE 将扩散和分数模型重新表述为求解器和计算设计空间。此前的分数模型和 DDPM 可以解读为独立算法;本文表明它们是共享连续时间表述内的点。后来的扩散工作通常将采样器设计、NFE 降低、ODE/SDE 选择和引导(guidance)视为一等计算杠杆,而非附带的实现细节。
论文还使推理预算可见:训练一个分数场,然后决定花费多少神经函数评估以及如何分配它们。这种表述自然地引向后来关于快速采样器、蒸馏、潜在扩散和调度器设计的工作。
局限
本卡片的主要局限是硬件不透明:未报告确切的 GPU/TPU 类型、加速器数量、挂钟训练时间或内存占用。设备声明因此在项目规则下仍为推断。该方法还具有陡峭的推理成本剖面。PC 采样器提高样本质量,但花费额外的分数评估;高分辨率生成使用非常小的 batch size;似然计算依赖神经 ODE 容差和潜在的高 NFE。
报告的改进与架构和采样器选择紧密耦合:连续时间嵌入、更深的残差栈、predictor 选择、信噪比网格以及数据集特定的步数计数。迁移到不同的架构、分辨率或硬件预算可能改变最优采样器和质量-成本点。
链接
- 计算范式:
history/compute_regimes/generative_media_compute/README.md - 来源 PDF 和抽取文本见上方元数据。
- 队列状态:
read_complete。 - 方法索引:diffusion、generative_models
- Ledger 更新:compute bottlenecks