Sequence to Sequence Learning with Neural Networks - 中文验证版

英文原始依据卡片：seq2seq_2014.md

状态：已翻译。

元数据

Slug： seq2seq_2014
年份： 2014
会议： NeurIPS
作者： Ilya Sutskever, Oriol Vinyals, Quoc V. Le
阅读状态： read complete
计算范式： 单 GPU 深度学习
主要来源： PDF、抽取文本

计算设置

论文给出了清晰的实现规模描述，但未指明确切 GPU 型号。它首先报告，使用论文配置的 C++ 深度 LSTM 实现在单 GPU 上每秒处理约 1,700 个词，作者认为这太慢。因此，他们在一台 8-GPU 机器上进行了并行化。四块 GPU 承载四个 LSTM 层，每层一块 GPU，激活一旦计算完成立即传递到下一层。剩余四块 GPU 并行化 softmax，每块 GPU 进行 1000 x 20000 的矩阵乘法。

该 8-GPU 实现在小批量大小 128 下达到每秒约 6,300 个英文和法文词，训练耗时约 10 天。由于论文说的是"单 GPU"和"8-GPU 机器"而未给出设备型号，确切型号未被来源记载。按项目规则，设备时代是 2014 年的 pre-TPU 深度学习 GPU 工作站范式，但本卡片不应声称具体 NVIDIA 型号。

瓶颈

瓶颈是顺序循环计算、深层堆叠状态和大型目标 softmax 的组合。模型使用 4 个 LSTM 层，每层 1000 个 cell，1000 维词嵌入，160,000 词源端词表和 80,000 词目标端词表。所得 LSTM 有 384M 参数，其中 64M 为循环连接。在每个输出步，朴素 softmax 需遍历 80,000 个词，因此输出层大得足以消耗 8-GPU 机器的一半计算。

变长句子创造了第二个计算瓶颈。如果大小 128 的小批量随机混合短句和长句，长样本迫使 padding，大量循环工作白白浪费。解码也有串行控制流成本：beam search 一次扩展一个 token 的部分假设，尽管论文发现 beam size 2 为集成提供了大部分收益。

方法适配

该方法通过手工模型切分和数据形状控制适配这一 GPU 范式。四个 LSTM 层被放置在四块 GPU 上，暴露了层级并行，即使每个序列在时间上仍是串行的。Softmax 被拆分到另外四块 GPU 上，直接应对 80,000 类的输出矩阵。句子分桶是一种计算优化：作者确保小批量中的所有句子长度大致相同，并报告因避免了浪费的 padding 计算而获得 2 倍加速。

最著名的建模技巧——反转源句——也是计算结构性的。它不改变硬件，但改变了时间上的优化路径。论文论证，反转在早期源端词和早期目标端词之间创造了短距离依赖，缩短了 backpropagation 必须跨越的最小时间延迟。这使得循环训练预算有效得多。梯度裁剪是对循环计算路径的另一种适配：batch 梯度的范数（除以 128）被裁剪至 5 以控制梯度爆炸。

训练配方刻意保持简单：不带 momentum 的 SGD，学习率 0.7，5 个 epoch 后每半个 epoch 减半，共 7.5 个 epoch。在这个时代，架构贡献和硬件布局是紧密耦合的；模型之所以有效，是因为它足够大以利用 GPU，但又足够结构化以适配多 GPU 布局。

证据

数据规模为 WMT'14 英法：12M 精选句对，3.48 亿法语词和 3.04 亿英语词。模型使用固定词表，将 out-of-vocabulary 词映射为 UNK，这限制了质量但保持了 softmax 的有限规模。

源句反转的证据是具体的。反转源句将测试困惑度从 5.8 降至 4.7，并将解码 BLEU 从 25.9 提升至 30.6（单 LSTM 比较）。深度也有回报：作者报告每增加一层 LSTM，困惑度几乎降低 10%，这激励他们将多 GPU 预算用于四个堆叠层。

翻译结果同时展示了前景和成本。单个 forward LSTM 以 beam size 12 获得 26.17 BLEU，而单个反向 LSTM 获得 30.59。五个反向 LSTM 的集成以 beam size 12 达到 34.81 BLEU，超过了基于短语的 baseline 的 33.30。用五个反向 LSTM 的集成对 baseline 的 1000-best 列表重评分达到 36.5 BLEU，距论文引用的最佳 WMT'14 结果仅差 0.5 BLEU。作者指出，beam size 2 的五个 LSTM 集成比 beam size 12 的单个 LSTM 更便宜，表明推理预算已经在塑造评估选择。

历史影响

Seq2seq 使端到端神经机器翻译在大规模 WMT 上变得可信，但其计算画像也显示了为什么该领域后来继续前进。它需要手工 GPU 切分、大型 softmax 分片、分桶、源句反转以及约 10 天的 8 GPU 训练。它是典范的循环 GPU 时代翻译卡片：足够的加速器计算以取代手工构建的翻译管线，但尚不足以摆脱逐序列循环。

局限

确切的 GPU 型号未被列出。循环架构在 token 维度上保持串行，限制了训练和解码并行性。大型词表 softmax 昂贵到需要四块 GPU，固定词表的 UNK 处理使罕见词未解决。源句反转是针对依赖长度的优化变通方案，而非通用 alignment 机制。后来的 attention 模型和 Transformer 更直接地解决了这些局限。

链接

所属计算范式：compute spine
相关卡片：Attention Is All You Need 2017
方法索引：seq2seq
Ledger 更新：compute bottlenecks