Identity Mappings in Deep Residual Networks
Identity Mappings in Deep Residual Networks - 中文验证版
英文原文卡片:resnet_identity_2016.md
状态:已翻译。
元数据
- Slug:
resnet_identity_2016 - 年份: 2016
- 会议: ECCV
- 作者: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
- 阅读状态: read complete
- 计算范式: 多 GPU 密集训练
- 主要来源: PDF、抽取文本
计算设置
论文给出了 GPU 数量、minibatch 和训练时间,但未给出 GPU 型号。对于 CIFAR,实现使用 minibatch size 128 在 2 块 GPU 上,每 GPU 64 个样本。1001 层 ResNet 在 2 块 GPU 上训练约 27 小时。对于 ImageNet,模型使用 minibatch size 256 在 8 块 GPU 上,每 GPU 32 个样本,ResNet-200 在 8 块 GPU 上训练约 3 周,论文称这与 VGG 网络相当。
由于论文未列出精确 GPU 型号,不应声明设备型号。按项目规则,设备时代可推断为 2015-2016 年高端 GPU CNN 训练,但文本中只有数量、batch 和 wall-clock 时间是明确的。
瓶颈
瓶颈不仅是加速器利用率本身;而是非常深的网络能否有效地利用可用的 GPU 计算。原始 ResNet 通过添加快捷连接使深度可训练,但本文认为,只有当跳跃路径 h(x_l) 和加法后变换 f(y_l) 都是恒等映射时,信号传播才是最干净的。如果快捷连接被缩放、门控、投影或以其他方式非恒等化,重复的深度可能倍增或扭曲直接信号路径。如果 ReLU 放在加法之后,负信号在能传播通过数百或数千个单元之前就被截断了。
这是一个计算结构瓶颈,因为 1001 层 CIFAR 模型的复杂度大约是 100 层模型的 10 倍,而 ImageNet ResNet-200 在 8 块 GPU 上已经需要数周时间。额外的深度只有在梯度和激活能够平滑通过时才有用。否则训练运行在优化停滞或泛化变差的网络上花费了大量 GPU 时间。
方法适配
该方法通过使残差路径尽可能接近干净的加法高速公路,来将残差架构适配到深层多 GPU 训练的实际需求。提出的全 pre-activation 单元将 batch normalization 和 ReLU 移到权重层之前。加法后,主路径上没有激活,因此 f 可视为恒等映射。跳跃连接在维度允许处保持恒等;投影快捷连接仅出现在特征图维度变化处。
这并非内核意义上的硬件优化,但它是计算高效的架构设计。它让相同的 GPU 预算能够训练更深的网络,而不会出现原始 1001 层设计中看到的早期缓慢损失下降。Batch normalization 作为 pre-activation 也正则化了权重路径,因为归一化的激活馈入卷积,而非在残差合并之后。
实现是保守的:CIFAR 使用平移/翻转增强,学习率 0.1,在第 32K 和 48K 次迭代下降,遵循早期 ResNet 设置的初始 400 迭代 0.01 预热,weight decay 0.0001,动量 0.9。ImageNet 使用早期 ResNet 增强,学习率 0.1,在第 30 和 60 个 epoch 下降,minibatch 256 在 8 块 GPU 上,同样的 weight decay/动量/初始化。
证据
CIFAR 是最清晰的压力测试。在表 3 中,使用原始单元的 ResNet-1001 给出 7.61% CIFAR-10 错误率,而 pre-activation 单元给出 4.92%。在 CIFAR-100 上,ResNet-1001 从 27.82% 改善到 22.71%。论文的训练曲线显示原始 1001 层设计在开始时损失下降缓慢,而提出的单元损失下降迅速,并在所研究的模型中达到最低损失。
ImageNet 证据规模较小但重要。使用原始残差单元的 ResNet-200 在单裁剪验证比较中 top-1 错误率 21.8%,top-5 错误率 6.0%。Pre-activation ResNet-200 改善到 top-1 20.7% 和 top-5 5.3%,在使用尺度加长宽比增强后达到 top-1 20.1% 和 top-5 4.8%。论文还报告非恒等快捷连接变体的 ImageNet 实验显示更高训练错误率,且因资源有限而停止,这是计算预算太昂贵以至于无法花在不良传播变体上的直接信号。
历史影响
本卡片属于多 GPU 密集训练分支,因为它展示了架构作为梯度传输机制的作用。ResNet 恒等映射没有减少卷积的 FLOPs,但改变了哪些深度值得训练。Pre-activation 残差单元帮助将数百或数千层从理论可能性转变为 GPU 数周计算的实际用途,该设计影响了后来的残差网络和 Transformer 块排序。
局限
论文未列出精确 GPU 型号。计算仍随深度缩放,因此 ResNet-200 仍是 8 GPU 多周 ImageNet 运行,ResNet-1001 在 CIFAR 上仍是 2 GPU 约一天。一些 ImageNet 消融实验因资源有限而停止,留下了不完整的比较。特征图变化处的投影快捷连接仍是非恒等的,因此恒等路径分析仅在大多数单元(而非每个单元)上精确成立。
链接
- 所属计算范式:compute spine
- 相关卡片:ResNet 2015
- 方法索引:cnn、normalization
- Ledger 更新:compute bottlenecks