Learning representations by back-propagating errors
Learning representations by back-propagating errors - 中文验证版
英文原始依据卡片:backprop_errors_1986.md
状态:已翻译。
元数据
- 阅读状态:read complete
- 年份:1986
- 计算范式:2012 年前 CPU 与统计基础 (
pre_2012_cpu_statistical_foundations) - PDF:1986-backprop_errors_1986.pdf
- 抽取文本:1986-backprop_errors_1986.txt
- PDF URL:https://www.iro.umontreal.ca/~vincentp/ift3395/lectures/backprop_old.pdf
- OpenAlex:https://openalex.org/W1498436455
- 引用计数来源/日期:OpenAlex 2026-06-15
- 引用计数:30757
- 阅读卡创建日期:2026-06-15
计算设置
论文未列出具体机器、处理器、内存大小、运行时间或实际训练时间。所链接的抽取文本文件实质上为空,因此本卡片依据的是所链接的本地 PDF 页面图像。按项目规则,推断该环境为 1985-1986 年的 CPU 研究工作站或小型机,使用小规模枚举数据集,无 GPU/加速器。论文讨论了与并行硬件的兼容性,但未声称所报告实验使用了并行硬件。
计算规模是明确的。对称性示例在 64 个二值输入向量上学习,需要 1,425 次扫描,每次扫描后根据累积梯度调整权重。家族树示例在一个五层前馈网络上训练 104 个可能三元组中的 100 个,持续 1,500 次扫描,前 20 次扫描后改变 epsilon/alpha 设置,每次权重变化后施加权重衰减。
瓶颈
瓶颈是隐藏层的信用分配。如果只有输入和输出单元具有外部指定的状态,学习系统需要一种方法来决定每个内部单元应该如何改变。早期的感知器式过程可以调整直接的输入-输出权重,但隐藏单元使学习更困难,因为它们的期望状态不由任务提供。论文将之界定为固定的"特征分析器"与真正的隐藏单元之间的区别。
还存在计算瓶颈。对于有限案例集,总误差对每个案例和每个输出单元求和差异,而学习需要相对于每个权重的偏导数。反向传播逐层复用局部导数,因此一次前向传播加一次反向传播即可计算完整梯度。
方法适配
该方法是一种针对分层可微单元的计算图过程。在前向传播中,每层的状态由下层输出和权重计算得出;层内单元可以并行设置,而层按自底向上的顺序依次设置。一旦输出激活已知,反向传播计算输出导数,然后使用链式法则将导数传播到更早的层,并计算每个权重的 dE/dw。
论文区分了两种更新模式。可以在每个案例后改变权重,避免单独的导数存储,但所报告实验在所有案例上累积 dE/dw 后再改变权重。加速方法添加了一个类似动量的项:当前梯度修改权重空间中的速度,alpha 控制来自早期梯度的贡献。
循环网络讨论明确指出了内存问题:展开的中间状态必须为反向传播存储,而各层之间的绑定权重需要在更新共享权重之前对其梯度进行平均。
证据
对称性任务检测六维二值输入向量中的镜像对称性。由于存在 64 个可能输入,作者在整个输入空间上训练。学习得到的解使用两个隐藏单元和一个输出单元;图 1 说明训练需要对 64 个案例进行 1,425 次扫描。学习得到的权重通过赋予镜像输入位置等量异号的对隐藏单元的影响来编码对称性。
家族树任务编码两个同构家族树中人物 1、关系和人物 2 的三元组。图 3 描述了一个五层网络,包括 24 个输入单元用于第一个人、12 个用于关系、用于人物和关系的隐藏层、一个 12 单元的中心层、一个 6 单元的倒数第二层,以及用于第二个人的输出单元。论文报告在 104 个三元组中的 100 个上训练 1,500 次扫描,并对四个保留三元组正确泛化。图 4 将隐藏单元解释为捕获了家族分支/代际以及英语/意大利语的区分,这些区分在标签中并不显式。
论文还给出了一个计算方面的说明:该过程并非快速的二阶优化。作者表示,该简单方法的收敛速度不如使用二阶导数的方法,但简单得多,且可以通过并行硬件中的本地计算实现。
历史影响
本文确立了反向传播作为训练分层可微网络中内部表示的一种实用方法。其计算贡献在于反向传播的可复用性:一旦存储了前向激活,所有权重的梯度可以通过本地链式法则操作计算得出。这使得隐藏单元可以在无需手动指定中间目标的情况下进行训练。
小规模实验展示了定性效果:对称性检测器和分布式家族树特征从梯度计算中涌现,而非手工设计。后来的神经网络使用了规模大得多的设备和数据集,但前向/反向计算模式仍是核心。
局限
论文报告了玩具规模的演示,未列出具体硬件。论文中没有加速器、内存、吞吐量或实际运行时间证据,因此任何超出时代层面推断的设备声明都将没有依据。实验使用完整或几乎完整的枚举案例集,而非带噪大规模数据集。
作者还指出了优化限制。梯度下降不保证找到全局最小值,较差的局部最小值是可能的,尤其是在连接数量刚好足够的网络中。该过程也没有被呈现为完整的生物学习合理模型。最后,为反向计算存储中间激活已经显露出是一个需求;在 1986 年的玩具规模下这很小,但它后来成为深度学习的核心内存成本。
链接
- 所属计算范式:compute spine
- 计算范式:
history/compute_regimes/pre_2012_cpu_statistical_foundations/README.md - 来源 PDF 与抽取文本详见上方元数据。
- 队列状态:
read_complete - 方法索引:backpropagation
- Ledger 更新:compute bottlenecks