Scaling Laws for Neural Language Models - 中文验证版

英文原文卡片：scaling_laws_2020.md

状态：已翻译。

元数据

Slug： scaling_laws_2020
年份： 2020
会议： arXiv
作者： Jared Kaplan et al.
阅读状态： read complete
计算范式： 超大规模密集 LLM 训练
主要来源： PDF、抽取文本

计算设置

抽取出的论文文本没有列出具体训练设备。按项目规则，设置应从研究时环境推断，大约是 2019 年：在同时代数据中心 GPU 上进行多加速器 Transformer 训练，最可能是 V100 级集群。这是推断得出的设备上下文，并非论文的明确声明。

论文用 petaflop-days 和 non-embedding FLOPs 描述计算量。它将 1 PF-day 定义为 8.64 * 10^19 次浮点操作，并估计 Transformer 训练计算为 C ~= 6NBS，其中 N 为非嵌入参数，B 为以 token 计的 batch size，S 为更新步数。嵌入和上下文项被排除，以获得更清晰的估计。

实验基底是 decoder-only Transformer 语言建模，在 WebText2 上使用字节对分词和大多 1024-token 上下文。除非另有说明，模型用 Adam 训练 2.5 * 10^5 步，batch size 512 个 1024-token 序列。超过 1B 参数的最大模型因内存约束改用 Adafactor，这是论文中最清晰的设备内存压力信号。

瓶颈

瓶颈是计算分配。给定固定的训练预算，研究者应将预算花在更大的模型、更多的数据还是更多的优化步骤上？

论文认为 loss 随模型大小、数据集大小和计算量呈平滑幂律关系。这把模型缩放变成了资源分配问题，而非一组孤立的架构猜测。

重要的瓶颈不仅是总 FLOPs，还有串行训练时间。图 3 论证，随着计算量增长，大部分增额应投入模型大小和 batch size，只有少量增额投入串行优化步骤。如果有并行设备可用，将它们用于更大的模型和更大的 batch，比用于更多小模型的顺序更新更好。

论文还识别出最终的数据瓶颈：计算高效训练使用的数据出奇地少，但拟合的定律意味着，除非数据集规模同步增长，否则过拟合最终仍会出现。

方法适配

该方法通过测量缩放规律，使 Transformer 训练适配大型加速器预算：

将 loss 估计为参数量、数据集大小和计算的函数。
将训练计算建模为大致与参数乘以 batch size 乘以训练步数成正比。
使用 gradient-noise-scale 测量来估计高效 batch size。
认为计算最优训练应使用非常大的模型、相对适中的数据，并在完全收敛前 early stopping。
注意到优化器和内存压力：最大模型因内存约束使用 Adafactor。

这是密集 Transformer 范式下的计算预算规则，而非主要面向新架构。

架构选择有意保持次要。论文报告性能强烈依赖规模，而在合理范围内仅弱依赖深度、宽度、注意力头数和前馈维度。这使得 N、D 和 C 成为规划加速器运行的主要旋钮。

批处理是并行控制的一种形式。临界 batch size 给出了一个边界，超过该边界更大的 batch 仍能以较低的计算效率损失换取训练速度。在最大可训练模型接近收敛时，论文估计理想 batch size 约为 1-2 百万 token，将梯度噪声转化为数据并行限制。

计算最优配方是 early stopping：将较小的模型训练到收敛，相对于将较大的模型训练较少步数而言，是对计算的浪费。

证据

论文报告在模型大小、数据和计算上跨多个数量级呈平滑缩放。
测试的模型大小范围从 768 到 1.5B 非嵌入参数；数据集大小从 22M 到 23B token；大多数运行的上下文长度为 1024。
WebText2 包含 20.3M 文档、96 GB 文本、1.62 * 10^10 词和 2.29 * 10^10 token，其中 6.6 * 10^8 token 预留用于测试。
论文报告当其他因素不构成瓶颈时，模型大小、数据大小和计算的幂律趋势跨六个数量级以上。
它发现，每增加 8 倍模型大小仅需约 5 倍更多数据以避免拟合的过拟合惩罚。
拟合的计算高效前沿表明，最优模型大小随计算快速增长：每增加 10 倍计算约需 5 倍更多参数。
经 batch 调整的优化步数增长非常缓慢，Smin 拟合接近 Cmin^0.03。
论文明确指出超过 1B 参数的最大模型因内存约束使用了 Adafactor。

历史影响

Scaling Laws 为训练不足的大型模型提供了定量论证，并帮助证明 GPT-3 式密集缩放的合理性。在计算结构主线中，它是超大规模密集 LLM 分支的规划论文：它在 Transformer 已成为标准计算适配架构之后告诉研究者如何花费加速器预算。

后来的 Chinchilla 结果修正了数据/模型分配，因此这张卡应按历史语境阅读：它记录了塑造早期 LLM 缩放的 2020 年计算策略，而非最终最优定律。

其历史影响在于将"让模型更大"变成了计算公式。GPT-3 决定在相对更少的 token 上训练更大的模型明确与这一分析相联系。即使后来工作改变了指数，token、参数、FLOPs 和 batch/noise 规模仍是 LLM 工程的核心。

局限

论文在可用文本中没有命名确切设备，因此硬件描述是推断的。
计算最优建议后来受到数据最优缩放工作的挑战。
实验是语言模型预训练研究，不是对后训练、检索、工具使用或推理时缩放的完整说明。
计算公式在注意力项占总计算较小比例的范式下忽略注意力项；对于非常长上下文，这不太安全。
分析优化训练 loss，而非包括服务延迟、内存占用或部署量的生命周期成本。

链接

相关链接卡：GPT-3 2020
所属计算范式：compute spine
方法索引：scaling_laws
Ledger 更新：compute bottlenecks