Gradient-based learning applied to document recognition

1998 2012 年前 CPU 与统计基础 被引用 58k 次
下载 PDF

Gradient-Based Learning Applied to Document Recognition - 中文验证版

英文原始依据卡片:lenet_document_recognition_1998.md

状态:已翻译。

元数据

  • Slug: lenet_document_recognition_1998
  • 年份: 1998
  • 期刊: Proceedings of the IEEE
  • 作者: Yann LeCun, Leon Bottou, Yoshua Bengio, Patrick Haffner
  • 阅读状态: read complete, extraction poor
  • 计算范式: 2012 年前 CPU 与统计基础
  • 主要来源: PDF抽取文本

计算设置

本地抽取文本严重损坏,无法可靠呈现硬件部分。我检查了本地抽取文本和 PDF 文本输出;没有显式的处理器、加速器或训练机器声明足以可靠引用。按项目规则,设备上下文从 1997-1998 年研究时期推断:CPU/工作站时代的神经网络训练与文档识别部署;可用本地来源中没有 GPU 证据。

文中仍给出了有用的计算结构。可读的架构图将 LeNet-5 标注为一条从 32x32 输入经过卷积、子采样、卷积、子采样、全连接层到 10 类输出的流水线。可见标签包括 C1 特征图 6@28x28、C3 特征图 16@10x10、S4 特征图 16@5x5、C5 120 个单元、F6 84 个单元,输出 10 个。可读的比较片段还将 LeNet-5 与约 60,000 个可训练参数和约 401,000 个连接的值并列,而 boosted LeNet-4 在同一表格片段中出现在约 51 和 460。由于正文损坏,这些应视为表格片段证据而非清晰的硬件/运行时间报告。

瓶颈

瓶颈是在 1990 年代有限计算下实现实用文档识别:对机器印刷和手写材料进行稳健的端到端识别,而不依赖为每种文档变体手工构建特征。在 28x28 或 32x32 像素上的全连接神经网络会把参数花在任意的像素到隐藏单元连接上,忽略图像局部性。模板方法和 k-NN 可以提高准确率,但往往将成本推到推理时的搜索或形变匹配上。

因此 LeNet 的计算瓶颈是参数效率和局部不变性。模型需要足够的容量来识别平移和畸变的数字,但训练和推理预算是 CPU 时代的。权重共享和局部感受野减少了参数数量,而子采样随着特征变得更加抽象降低了空间分辨率。该架构同时回应了内存、算术和数据范式三方面的约束。

方法适配

LeNet 式卷积网络通过使用局部感受野和共享权重来适配这一设置,从而一个学习检测器在空间位置间复用。这将图像识别从一个大的密集矩阵问题转化为特征图上的重复小核计算。在 CPU 上,这用对数组的规则循环替代了任意连接的内存开销。它还提高了样本效率,因为每个滤波器在每张图像上看到许多空间示例。

交替的卷积/子采样结构同时适配不变性和计算。C1 从 32x32 输入产生六个 28x28 特征图;后续阶段通过子采样降低分辨率并通过更多特征图增加特征多样性。当模型到达 C5 和 F6 时,空间网格已小到可以进行全连接分类。因此该架构仅在卷积阶段压缩图像之后才使用密集计算。

论文还将 LeNet 置于更大的文档识别系统之中。本卡片应理解为文档处理的计算故事,而非仅仅是 MNIST 分类。一个紧凑的可训练识别器可以与分割、图变换器式解析以及文档流水线的全局训练组合。同样的原则后来在深度学习中重现:当计算预算允许时,将手工设计阶段移入可微组件。

证据

抽取文本中只有表格和图片段是可靠的。最清晰的基准片段比较了数字识别上的分类器。它列出了 28x28 全连接神经网络在 4.7%、4.5%、3.05% 和 2.95% 的表现,取决于隐藏层大小,畸变变体改善了一些值。同一片段列出了 LeNet-1 在 1.7%、LeNet-4 在 1.1%、带局部或 k-NN 最后层的 LeNet-4 在 1.1%、LeNet-5 在 0.95%、畸变 LeNet-5 在 0.8%、boosted 畸变 LeNet-4 在 0.7%。这是卷积加子采样以紧凑模型规模获得准确率的主要来源证据。

架构图给出了错误率表背后的计算机制:32x32 输入、6@28x28 C1 图、16@10x10 C3 图、16@5x5 S4 图、120 单元 C5 层、84 单元 F6 层、10 单元输出。围绕模型比较的表格片段还显示,LeNet 模型的学习参数远少于大型全连接基线,同时错误率更低。由于本地抽取文本严重乱码,最安全的主张是定性且片段的:LeNet 的结构降低了密集连接并提高了识别准确率,但不应从该来源提出关于运行时间或硬件的精确正文声明。

历史影响

本文是 CPU 时代卷积网络的锚点。它在 GPU 深度学习让大型 CNN 主流化之前很久,就确立了权重共享、子采样和端到端梯度训练作为设备高效的视觉识别结构。在计算结构术语中,LeNet 的重要性在于它展示了架构可以替代蛮力:利用局部性和平移结构,在小型参数和 CPU 时代预算内获得有用的准确率。

其影响直接延续到后来的 GPU CNN。AlexNet 并非发明了卷积计算;它用更多数据、更大模型、ReLU、GPU 和高吞吐训练扩展了一个已建立的架构家族。LeNet 是更早的证明,表明卷积权重共享是视觉数据的正确形态。

局限

本地抽取文本严重乱码;数字和图片标签部分可读但正文不可靠。硬件和运行时间声明在用于摘要前应与更干净的来源核对。论文早于 ImageNet 规模的监督视觉训练、消费级 GPU 加速和现代数据增强流水线。其基准证据对小尺寸灰度数字/文档识别任务最强,而非大规模自然图像识别。

链接