Identity Mappings in Deep Residual Networks - 中文验证版

英文原文卡片：resnet_identity_2016.md

状态：已翻译。

元数据

Slug： resnet_identity_2016
年份： 2016
会议： ECCV
作者： Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
阅读状态： read complete
计算范式： 多 GPU 密集训练
主要来源： PDF、抽取文本

计算设置

论文给出了 GPU 数量、minibatch 和训练时间，但未给出 GPU 型号。对于 CIFAR，实现使用 minibatch size 128 在 2 块 GPU 上，每 GPU 64 个样本。1001 层 ResNet 在 2 块 GPU 上训练约 27 小时。对于 ImageNet，模型使用 minibatch size 256 在 8 块 GPU 上，每 GPU 32 个样本，ResNet-200 在 8 块 GPU 上训练约 3 周，论文称这与 VGG 网络相当。

由于论文未列出精确 GPU 型号，不应声明设备型号。按项目规则，设备时代可推断为 2015-2016 年高端 GPU CNN 训练，但文本中只有数量、batch 和 wall-clock 时间是明确的。

瓶颈

瓶颈不仅是加速器利用率本身；而是非常深的网络能否有效地利用可用的 GPU 计算。原始 ResNet 通过添加快捷连接使深度可训练，但本文认为，只有当跳跃路径 h(x_l) 和加法后变换 f(y_l) 都是恒等映射时，信号传播才是最干净的。如果快捷连接被缩放、门控、投影或以其他方式非恒等化，重复的深度可能倍增或扭曲直接信号路径。如果 ReLU 放在加法之后，负信号在能传播通过数百或数千个单元之前就被截断了。

这是一个计算结构瓶颈，因为 1001 层 CIFAR 模型的复杂度大约是 100 层模型的 10 倍，而 ImageNet ResNet-200 在 8 块 GPU 上已经需要数周时间。额外的深度只有在梯度和激活能够平滑通过时才有用。否则训练运行在优化停滞或泛化变差的网络上花费了大量 GPU 时间。

方法适配

该方法通过使残差路径尽可能接近干净的加法高速公路，来将残差架构适配到深层多 GPU 训练的实际需求。提出的全 pre-activation 单元将 batch normalization 和 ReLU 移到权重层之前。加法后，主路径上没有激活，因此 f 可视为恒等映射。跳跃连接在维度允许处保持恒等；投影快捷连接仅出现在特征图维度变化处。

这并非内核意义上的硬件优化，但它是计算高效的架构设计。它让相同的 GPU 预算能够训练更深的网络，而不会出现原始 1001 层设计中看到的早期缓慢损失下降。Batch normalization 作为 pre-activation 也正则化了权重路径，因为归一化的激活馈入卷积，而非在残差合并之后。

实现是保守的：CIFAR 使用平移/翻转增强，学习率 0.1，在第 32K 和 48K 次迭代下降，遵循早期 ResNet 设置的初始 400 迭代 0.01 预热，weight decay 0.0001，动量 0.9。ImageNet 使用早期 ResNet 增强，学习率 0.1，在第 30 和 60 个 epoch 下降，minibatch 256 在 8 块 GPU 上，同样的 weight decay/动量/初始化。

证据

CIFAR 是最清晰的压力测试。在表 3 中，使用原始单元的 ResNet-1001 给出 7.61% CIFAR-10 错误率，而 pre-activation 单元给出 4.92%。在 CIFAR-100 上，ResNet-1001 从 27.82% 改善到 22.71%。论文的训练曲线显示原始 1001 层设计在开始时损失下降缓慢，而提出的单元损失下降迅速，并在所研究的模型中达到最低损失。

ImageNet 证据规模较小但重要。使用原始残差单元的 ResNet-200 在单裁剪验证比较中 top-1 错误率 21.8%，top-5 错误率 6.0%。Pre-activation ResNet-200 改善到 top-1 20.7% 和 top-5 5.3%，在使用尺度加长宽比增强后达到 top-1 20.1% 和 top-5 4.8%。论文还报告非恒等快捷连接变体的 ImageNet 实验显示更高训练错误率，且因资源有限而停止，这是计算预算太昂贵以至于无法花在不良传播变体上的直接信号。

历史影响

本卡片属于多 GPU 密集训练分支，因为它展示了架构作为梯度传输机制的作用。ResNet 恒等映射没有减少卷积的 FLOPs，但改变了哪些深度值得训练。Pre-activation 残差单元帮助将数百或数千层从理论可能性转变为 GPU 数周计算的实际用途，该设计影响了后来的残差网络和 Transformer 块排序。

局限

论文未列出精确 GPU 型号。计算仍随深度缩放，因此 ResNet-200 仍是 8 GPU 多周 ImageNet 运行，ResNet-1001 在 CIFAR 上仍是 2 GPU 约一天。一些 ImageNet 消融实验因资源有限而停止，留下了不完整的比较。特征图变化处的投影快捷连接仍是非恒等的，因此恒等路径分析仅在大多数单元（而非每个单元）上精确成立。

链接

所属计算范式：compute spine
相关卡片：ResNet 2015
方法索引：cnn、normalization
Ledger 更新：compute bottlenecks