Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer - 中文验证版

英文原文卡片：t5_2019.md

状态：已翻译。

元数据

Slug： t5_2019
年份： 2019
会议： JMLR
作者： Colin Raffel et al.
阅读状态： read complete
计算范式： TPU、加速器与 Transformer 时代
主要来源： PDF、抽取文本

计算设置

论文明确使用 Cloud TPU Pod 基础设施。第 2.1 节指出大模型可能无法放入单台机器，需要大量计算，因此作者结合使用模型并行和数据并行，并在 Cloud TPU Pods 的"切片（slices）"上训练。它将 TPU Pods 描述为包含 1,024 个 TPU v3 chips 的多机架 ML 超级计算机，通过高速 2D mesh 互联并由 CPU 主机支持。它还说明 Mesh TensorFlow 用于模型和数据并行。抽取文本未给出每个切片的精确芯片数量，因此只有 Pod 家族和并行策略是明确陈述的。

基线实验使用 524,288 个预训练步骤，最大序列长度 512，batch size 128 个序列，打包使得每个 batch 包含约 65,536 个 tokens，约 34B 预训练 tokens。最终的 T5 运行要大得多：论文预训练 1M steps，batch size 为 2^11 个 length-512 序列，约 1 万亿预训练 tokens。模型规模横跨约 60M、220M、770M、2.8B 和 11B 参数。这将 T5 置于明确的 TPU v3 Pod-slice 时代：模型形状、batch size 和数据量都是围绕分布式密集 matmul 吞吐量和互联支持的并行来选择的。

瓶颈

瓶颈是在加速器规模下进行统一迁移学习。T5 希望用一个模型、一个目标、一个训练过程和一个解码过程服务分类、问答、摘要和翻译，但这样的模型在训练和服务上都很昂贵。论文明确指出大模型可能无法放入单机，迫使采用模型和数据并行。注意力成本仍然随序列长度增长，encoder-decoder 生成增加了长输出的 decoder 端计算。

数据也成为一个计算瓶颈。基线 34B-token 运行仅涵盖 C4 的一小部分，因此模型不重复数据；最终的 1T-token 运行依赖于 C4 是约 750GB 清洗过的英文文本。论文表明多次重复较小的预训练集可能损害性能，因此数据管线不是一个被动的细节。微调有其自身的预算问题：高资源任务需要许多样本，而低资源 GLUE 和 SuperGLUE 任务可能迅速过拟合，尤其是在 batch 过大时。

方法适配

T5 通过标准化任务接口然后缩放共享路径来适配 TPU Pod 训练。每个任务被转换为 text-to-text 格式，这使得相同的模型、目标、训练循环和解码代码可以服务分类、回归式 STS-B、问答、摘要和翻译。这降低了系统复杂性：加速器看到的是一个 encoder-decoder Transformer 家族，而非维护任务特定的输出头。

预训练目标也是计算形态的。T5 破坏 15% 的 tokens，用哨兵 tokens 替换连续的损坏跨度，并训练 decoder 只输出被丢弃的跨度加哨兵。论文明确说明选择 mask 连续跨度并仅预测被丢弃的 tokens 是为了降低预训练成本。在最终配方中，平均跨度长度为 3，这略微缩短了目标同时保持去噪信号有用。这是一个带宽和序列长度适配：更短的 decoder 目标减少了自回归工作和超出必要重建 tokens 的自注意力。

缩放选择直接绑定到加速器几何结构。3B 和 11B 变体保持 24 层 encoder 和 decoder，d_model=1024，并将前馈宽度缩放至 16,384 和 65,536。论文说明它专门缩放 d_ff，因为现代加速器（如训练中使用的 TPUs）在大型密集矩阵乘法（如 Transformer 前馈网络）中最有效。在单个 GLUE 和 SuperGLUE 任务上的微调切换至更小的 batch size 为 8 个 length-512 序列，以避免低资源任务在每批中出现多次。

证据

论文在最终运行之前给出了几个计算缩放消融。从一个 220M 参数基线开始，Table 13 询问如何花费 4 倍更多的计算。四倍训练步骤将 GLUE 从 83.28 提升至 85.33，四倍更大的 batch 将其提升至 84.60，2 倍模型训练 2 倍步骤达到 86.18，而 4 倍大的模型训练基线步骤达到 85.91。文本总结增加训练时间、batch size、模型规模和集成都有帮助，但更大的模型使微调和推理更昂贵，而更长的预训练可以在下游任务中摊销。

最终证据是 Table 14。T5-11B 达到 GLUE 90.3、SuperGLUE 88.9、SQuAD 验证集 91.26 EM / 96.22 F1，以及 CNN/DailyMail ROUGE-1/2/L 为 43.52/21.55/40.69。论文报告在考虑的 24 个任务中的 18 个上达到 state-of-the-art 性能，并说明 11B 模型在所有 T5 变体中在所有任务上表现最佳。Table 15 将规模与其他设计决策分离：在约 1T tokens 上训练的基线相比 34B-token 基线有所改善，但 T5-Base 在所有下游任务上仍优于基线-1T，表明 text-to-text 配方、目标和数据决策除了原始计算外也有影响。

历史影响

T5 将 NLP 合并为直接绑定到 TPU Pod 基础设施的统一 text-to-text 缩放配方。它是从 BERT 式迁移到后来通用 LLM 预训练的桥梁：任务格式、去噪目标长度、数据清洗、batch 构建、模型并行和前馈缩放成为一个系统。它还记录了 2019 年一个重要的缩放观点：如果有更多计算可用，它可以花在更多数据、更大的模型、更大的 batch 或集成上，但每个选择有不同的下游训练和推理后果。

局限

论文没有在任何 WMT 翻译任务上达到 state of the art。它指出仅英文未标注的预训练数据、缺少回译、缺少跨语言无监督训练，以及与更大 WMT 训练集的比较可能是原因。最大模型在评估时间上也是昂贵的：论文说明 SQuAD 测试集推理需要一个基准服务器，其计算资源不足以处理最大模型的预测，因此 SQuAD 报告在验证集上。最后，论文说明了 TPU Pod 切片但未说明每次运行的切片大小，因此硬件设置在数值上不如 BERT 的芯片数量披露那么完整。

链接

所属计算范式：compute spine
相关卡片：Mesh TensorFlow 2018
方法索引：transformer
Ledger 更新：compute bottlenecks