Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

下载 PDF

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer - 中文验证版

英文原文卡片:t5_2019.md

状态:已翻译。

元数据

  • Slug: t5_2019
  • 年份: 2019
  • 会议: JMLR
  • 作者: Colin Raffel et al.
  • 阅读状态: read complete
  • 计算范式: TPU、加速器与 Transformer 时代
  • 主要来源: PDF抽取文本

计算设置

论文明确使用 Cloud TPU Pod 基础设施。第 2.1 节指出大模型可能无法放入单台机器,需要大量计算,因此作者结合使用模型并行和数据并行,并在 Cloud TPU Pods 的"切片(slices)"上训练。它将 TPU Pods 描述为包含 1,024 个 TPU v3 chips 的多机架 ML 超级计算机,通过高速 2D mesh 互联并由 CPU 主机支持。它还说明 Mesh TensorFlow 用于模型和数据并行。抽取文本未给出每个切片的精确芯片数量,因此只有 Pod 家族和并行策略是明确陈述的。

基线实验使用 524,288 个预训练步骤,最大序列长度 512,batch size 128 个序列,打包使得每个 batch 包含约 65,536 个 tokens,约 34B 预训练 tokens。最终的 T5 运行要大得多:论文预训练 1M steps,batch size 为 2^11 个 length-512 序列,约 1 万亿预训练 tokens。模型规模横跨约 60M、220M、770M、2.8B 和 11B 参数。这将 T5 置于明确的 TPU v3 Pod-slice 时代:模型形状、batch size 和数据量都是围绕分布式密集 matmul 吞吐量和互联支持的并行来选择的。

瓶颈

瓶颈是在加速器规模下进行统一迁移学习。T5 希望用一个模型、一个目标、一个训练过程和一个解码过程服务分类、问答、摘要和翻译,但这样的模型在训练和服务上都很昂贵。论文明确指出大模型可能无法放入单机,迫使采用模型和数据并行。注意力成本仍然随序列长度增长,encoder-decoder 生成增加了长输出的 decoder 端计算。

数据也成为一个计算瓶颈。基线 34B-token 运行仅涵盖 C4 的一小部分,因此模型不重复数据;最终的 1T-token 运行依赖于 C4 是约 750GB 清洗过的英文文本。论文表明多次重复较小的预训练集可能损害性能,因此数据管线不是一个被动的细节。微调有其自身的预算问题:高资源任务需要许多样本,而低资源 GLUE 和 SuperGLUE 任务可能迅速过拟合,尤其是在 batch 过大时。

方法适配

T5 通过标准化任务接口然后缩放共享路径来适配 TPU Pod 训练。每个任务被转换为 text-to-text 格式,这使得相同的模型、目标、训练循环和解码代码可以服务分类、回归式 STS-B、问答、摘要和翻译。这降低了系统复杂性:加速器看到的是一个 encoder-decoder Transformer 家族,而非维护任务特定的输出头。

预训练目标也是计算形态的。T5 破坏 15% 的 tokens,用哨兵 tokens 替换连续的损坏跨度,并训练 decoder 只输出被丢弃的跨度加哨兵。论文明确说明选择 mask 连续跨度并仅预测被丢弃的 tokens 是为了降低预训练成本。在最终配方中,平均跨度长度为 3,这略微缩短了目标同时保持去噪信号有用。这是一个带宽和序列长度适配:更短的 decoder 目标减少了自回归工作和超出必要重建 tokens 的自注意力。

缩放选择直接绑定到加速器几何结构。3B 和 11B 变体保持 24 层 encoder 和 decoder,d_model=1024,并将前馈宽度缩放至 16,384 和 65,536。论文说明它专门缩放 d_ff,因为现代加速器(如训练中使用的 TPUs)在大型密集矩阵乘法(如 Transformer 前馈网络)中最有效。在单个 GLUE 和 SuperGLUE 任务上的微调切换至更小的 batch size 为 8 个 length-512 序列,以避免低资源任务在每批中出现多次。

证据

论文在最终运行之前给出了几个计算缩放消融。从一个 220M 参数基线开始,Table 13 询问如何花费 4 倍更多的计算。四倍训练步骤将 GLUE 从 83.28 提升至 85.33,四倍更大的 batch 将其提升至 84.60,2 倍模型训练 2 倍步骤达到 86.18,而 4 倍大的模型训练基线步骤达到 85.91。文本总结增加训练时间、batch size、模型规模和集成都有帮助,但更大的模型使微调和推理更昂贵,而更长的预训练可以在下游任务中摊销。

最终证据是 Table 14。T5-11B 达到 GLUE 90.3、SuperGLUE 88.9、SQuAD 验证集 91.26 EM / 96.22 F1,以及 CNN/DailyMail ROUGE-1/2/L 为 43.52/21.55/40.69。论文报告在考虑的 24 个任务中的 18 个上达到 state-of-the-art 性能,并说明 11B 模型在所有 T5 变体中在所有任务上表现最佳。Table 15 将规模与其他设计决策分离:在约 1T tokens 上训练的基线相比 34B-token 基线有所改善,但 T5-Base 在所有下游任务上仍优于基线-1T,表明 text-to-text 配方、目标和数据决策除了原始计算外也有影响。

历史影响

T5 将 NLP 合并为直接绑定到 TPU Pod 基础设施的统一 text-to-text 缩放配方。它是从 BERT 式迁移到后来通用 LLM 预训练的桥梁:任务格式、去噪目标长度、数据清洗、batch 构建、模型并行和前馈缩放成为一个系统。它还记录了 2019 年一个重要的缩放观点:如果有更多计算可用,它可以花在更多数据、更大的模型、更大的 batch 或集成上,但每个选择有不同的下游训练和推理后果。

局限

论文没有在任何 WMT 翻译任务上达到 state of the art。它指出仅英文未标注的预训练数据、缺少回译、缺少跨语言无监督训练,以及与更大 WMT 训练集的比较可能是原因。最大模型在评估时间上也是昂贵的:论文说明 SQuAD 测试集推理需要一个基准服务器,其计算资源不足以处理最大模型的预测,因此 SQuAD 报告在验证集上。最后,论文说明了 TPU Pod 切片但未说明每次运行的切片大小,因此硬件设置在数值上不如 BERT 的芯片数量披露那么完整。

链接