Scaling Laws for Neural Language Models

下载 PDF

Scaling Laws for Neural Language Models - 中文验证版

英文原文卡片:scaling_laws_2020.md

状态:已翻译。

元数据

  • Slug: scaling_laws_2020
  • 年份: 2020
  • 会议: arXiv
  • 作者: Jared Kaplan et al.
  • 阅读状态: read complete
  • 计算范式: 超大规模密集 LLM 训练
  • 主要来源: PDF抽取文本

计算设置

抽取出的论文文本没有列出具体训练设备。按项目规则,设置应从研究时环境推断,大约是 2019 年:在同时代数据中心 GPU 上进行多加速器 Transformer 训练,最可能是 V100 级集群。这是推断得出的设备上下文,并非论文的明确声明。

论文用 petaflop-days 和 non-embedding FLOPs 描述计算量。它将 1 PF-day 定义为 8.64 * 10^19 次浮点操作,并估计 Transformer 训练计算为 C ~= 6NBS,其中 N 为非嵌入参数,B 为以 token 计的 batch size,S 为更新步数。嵌入和上下文项被排除,以获得更清晰的估计。

实验基底是 decoder-only Transformer 语言建模,在 WebText2 上使用字节对分词和大多 1024-token 上下文。除非另有说明,模型用 Adam 训练 2.5 * 10^5 步,batch size 512 个 1024-token 序列。超过 1B 参数的最大模型因内存约束改用 Adafactor,这是论文中最清晰的设备内存压力信号。

瓶颈

瓶颈是计算分配。给定固定的训练预算,研究者应将预算花在更大的模型、更多的数据还是更多的优化步骤上?

论文认为 loss 随模型大小、数据集大小和计算量呈平滑幂律关系。这把模型缩放变成了资源分配问题,而非一组孤立的架构猜测。

重要的瓶颈不仅是总 FLOPs,还有串行训练时间。图 3 论证,随着计算量增长,大部分增额应投入模型大小和 batch size,只有少量增额投入串行优化步骤。如果有并行设备可用,将它们用于更大的模型和更大的 batch,比用于更多小模型的顺序更新更好。

论文还识别出最终的数据瓶颈:计算高效训练使用的数据出奇地少,但拟合的定律意味着,除非数据集规模同步增长,否则过拟合最终仍会出现。

方法适配

该方法通过测量缩放规律,使 Transformer 训练适配大型加速器预算:

  • 将 loss 估计为参数量、数据集大小和计算的函数。
  • 将训练计算建模为大致与参数乘以 batch size 乘以训练步数成正比。
  • 使用 gradient-noise-scale 测量来估计高效 batch size。
  • 认为计算最优训练应使用非常大的模型、相对适中的数据,并在完全收敛前 early stopping。
  • 注意到优化器和内存压力:最大模型因内存约束使用 Adafactor。

这是密集 Transformer 范式下的计算预算规则,而非主要面向新架构。

架构选择有意保持次要。论文报告性能强烈依赖规模,而在合理范围内仅弱依赖深度、宽度、注意力头数和前馈维度。这使得 NDC 成为规划加速器运行的主要旋钮。

批处理是并行控制的一种形式。临界 batch size 给出了一个边界,超过该边界更大的 batch 仍能以较低的计算效率损失换取训练速度。在最大可训练模型接近收敛时,论文估计理想 batch size 约为 1-2 百万 token,将梯度噪声转化为数据并行限制。

计算最优配方是 early stopping:将较小的模型训练到收敛,相对于将较大的模型训练较少步数而言,是对计算的浪费。

证据

  • 论文报告在模型大小、数据和计算上跨多个数量级呈平滑缩放。
  • 测试的模型大小范围从 768 到 1.5B 非嵌入参数;数据集大小从 22M 到 23B token;大多数运行的上下文长度为 1024。
  • WebText2 包含 20.3M 文档、96 GB 文本、1.62 * 10^10 词和 2.29 * 10^10 token,其中 6.6 * 10^8 token 预留用于测试。
  • 论文报告当其他因素不构成瓶颈时,模型大小、数据大小和计算的幂律趋势跨六个数量级以上。
  • 它发现,每增加 8 倍模型大小仅需约 5 倍更多数据以避免拟合的过拟合惩罚。
  • 拟合的计算高效前沿表明,最优模型大小随计算快速增长:每增加 10 倍计算约需 5 倍更多参数。
  • 经 batch 调整的优化步数增长非常缓慢,Smin 拟合接近 Cmin^0.03
  • 论文明确指出超过 1B 参数的最大模型因内存约束使用了 Adafactor。

历史影响

Scaling Laws 为训练不足的大型模型提供了定量论证,并帮助证明 GPT-3 式密集缩放的合理性。在计算结构主线中,它是超大规模密集 LLM 分支的规划论文:它在 Transformer 已成为标准计算适配架构之后告诉研究者如何花费加速器预算。

后来的 Chinchilla 结果修正了数据/模型分配,因此这张卡应按历史语境阅读:它记录了塑造早期 LLM 缩放的 2020 年计算策略,而非最终最优定律。

其历史影响在于将"让模型更大"变成了计算公式。GPT-3 决定在相对更少的 token 上训练更大的模型明确与这一分析相联系。即使后来工作改变了指数,token、参数、FLOPs 和 batch/noise 规模仍是 LLM 工程的核心。

局限

  • 论文在可用文本中没有命名确切设备,因此硬件描述是推断的。
  • 计算最优建议后来受到数据最优缩放工作的挑战。
  • 实验是语言模型预训练研究,不是对后训练、检索、工具使用或推理时缩放的完整说明。
  • 计算公式在注意力项占总计算较小比例的范式下忽略注意力项;对于非常长上下文,这不太安全。
  • 分析优化训练 loss,而非包括服务延迟、内存占用或部署量的生命周期成本。

链接