Training Compute-Optimal Large Language Models
Training Compute-Optimal Large Language Models - 中文验证版
英文原始依据卡片:chinchilla_2022.md
状态:已翻译。
元数据
- Slug:
chinchilla_2022 - 年份: 2022
- 会议: arXiv
- 作者: Jordan Hoffmann et al.
- 阅读状态: read complete
- 计算范式: 超大规模密集 LLM 训练
- 主要来源: PDF、抽取文本
计算设置
论文明确说明所分析模型使用 JAX 和 Haiku 在 TPU v3 与 TPU v4 上训练。抽取文本没有给出 Chinchilla 的精确 chip count 或 pod layout。按项目规则,这是 2021-2022 DeepMind 数据中心加速器训练,而非 commodity GPU 或边缘推理。
核心比较是固定 compute 对比。Chinchilla 有 70B 参数并在 1.4T tokens 上训练,使用与 Gopher 相同的 FLOPs(Gopher budget 在缩放图中为 5.76e23 FLOPs);Gopher 有 280B 参数并在约 300B tokens 上训练。
训练超参数表还揭示了计算结构差异。Gopher 的 batch size 为 3M tokens(后期加倍至 6M),而 Chinchilla 使用 1.5M tokens(后期加倍至 3M)。Chinchilla 的前向和反向传播以 bfloat16 计算,而 float32 权重副本保留在 optimizer state 中——一种内存/精度折衷。
瓶颈
瓶颈是计算分配。早期大型语言模型常使用约 300B 训练 token,相对其参数量为训练不足。问题在于,如何在固定 FLOP 预算下分配参数量和训练 token。
这也是内存和推理瓶颈。280B 模型的参数内存占用和每 token 推理成本远高于 70B 模型。若两者消耗相同的预训练 FLOPs,较小的 compute-optimal 模型双重受益:训练更多数据,且后续微调和部署更便宜。Chinchilla 将下游推理成本纳入 scaling law 论证。
方法适配
Chinchilla 通过改变 size/token 比率而非引入新架构来调整 dense Transformer 配方。作者进行了超过 400 次训练运行,模型规模从数千万到超过 16B 参数,token 数从 5B 到超过 400B,然后拟合三种方法:固定模型规模变化 tokens、IsoFLOP 曲线、以及参数化 loss 模型。三种方法均预测,随着 compute 增加,parameters 和 training tokens 应以近乎相等的比例缩放(equal-proportion scaling)。
方法选择是面向计算设备的,因为输出是针对固定集群预算的处方。论文未构建 280B 参数模型,而是选择接近 Gopher 计算预算下预定最优的 70B 模型,将节省的参数 FLOP 用于训练四倍的 token。Chinchilla 保留 Gopher 的整体架构和训练设置,同时调整 1.4T tokens 的数据集分布、切换到 AdamW、使用略作修改的 SentencePiece 词表,并保留高精度 optimizer state。
这也是数据管线适配。训练 1.4T token 需要一个能支持更多轮次通过可用数据源的数据集分布。论文在主要缩放结果中假设无限数据条件,同时承认多轮行为尚未解决。
证据
- Chinchilla:70B 参数,1.4T training tokens。
- Gopher:280B 参数,约 300B tokens。
- Chinchilla 达到 67.6% 5-shot MMLU,比 Gopher 提高 7.6 个百分点。
- BIG-bench average 为 65.1%,Gopher 为 54.4%。
- LAMBADA zero-shot 77.4%,对比 Gopher 74.5% 和 MT-NLG 530B 76.6%。
- Wikitext103 perplexity 7.16,对比 Gopher 7.75。The Pile 各子集 bits-per-byte 均有提升。
- 缩放表给出更广泛的 compute 含义:175B 参数模型按论文估计应训练超过 4.2T tokens,280B Gopher 类模型需约 6.8T tokens 才能落在 compute-optimal frontier 上。
历史影响
Chinchilla 修正了早期 GPT-3/Kaplan 缩放信条。从计算结构角度看,它把密集 LLM 缩放从“把模型做更大”转向固定训练预算下的数据/模型均衡分配。重要的历史意义在于,它不需要新的加速器或架构来推动前沿;它改变了加速器预算的支出方式。
它也重新权衡了部署经济学。compute-optimal 的 70B 模型比同预训练 FLOPs 训练的 280B 模型更便宜微调和部署。这使得训练 token 规模、数据质量和推理内存成为 LLM 规划的核心要素,而非参数量之后的次要细节。
局限
- 大规模验证昂贵,只有两个可比较的前沿运行:Chinchilla 和 Gopher。
- 分析假设拟合的幂律前沿,作者观察到高计算预算处存在弯曲,可能意味着最优模型甚至小于主要外推预测。
- 多轮数据复用和数据质量尚未完全解决。
- 训练万亿 token 带来数据集治理与审查问题。
链接
- 所属计算范式:compute spine
- 相关卡片:Scaling Laws 2020
- 方法索引:scaling_laws、transformer
- 对照更新:compute bottlenecks