Training Compute-Optimal Large Language Models

下载 PDF

Training Compute-Optimal Large Language Models - 中文验证版

英文原始依据卡片:chinchilla_2022.md

状态:已翻译。

元数据

  • Slug: chinchilla_2022
  • 年份: 2022
  • 会议: arXiv
  • 作者: Jordan Hoffmann et al.
  • 阅读状态: read complete
  • 计算范式: 超大规模密集 LLM 训练
  • 主要来源: PDF抽取文本

计算设置

论文明确说明所分析模型使用 JAX 和 Haiku 在 TPU v3 与 TPU v4 上训练。抽取文本没有给出 Chinchilla 的精确 chip count 或 pod layout。按项目规则,这是 2021-2022 DeepMind 数据中心加速器训练,而非 commodity GPU 或边缘推理。

核心比较是固定 compute 对比。Chinchilla 有 70B 参数并在 1.4T tokens 上训练,使用与 Gopher 相同的 FLOPs(Gopher budget 在缩放图中为 5.76e23 FLOPs);Gopher 有 280B 参数并在约 300B tokens 上训练。

训练超参数表还揭示了计算结构差异。Gopher 的 batch size 为 3M tokens(后期加倍至 6M),而 Chinchilla 使用 1.5M tokens(后期加倍至 3M)。Chinchilla 的前向和反向传播以 bfloat16 计算,而 float32 权重副本保留在 optimizer state 中——一种内存/精度折衷。

瓶颈

瓶颈是计算分配。早期大型语言模型常使用约 300B 训练 token,相对其参数量为训练不足。问题在于,如何在固定 FLOP 预算下分配参数量和训练 token。

这也是内存和推理瓶颈。280B 模型的参数内存占用和每 token 推理成本远高于 70B 模型。若两者消耗相同的预训练 FLOPs,较小的 compute-optimal 模型双重受益:训练更多数据,且后续微调和部署更便宜。Chinchilla 将下游推理成本纳入 scaling law 论证。

方法适配

Chinchilla 通过改变 size/token 比率而非引入新架构来调整 dense Transformer 配方。作者进行了超过 400 次训练运行,模型规模从数千万到超过 16B 参数,token 数从 5B 到超过 400B,然后拟合三种方法:固定模型规模变化 tokens、IsoFLOP 曲线、以及参数化 loss 模型。三种方法均预测,随着 compute 增加,parameters 和 training tokens 应以近乎相等的比例缩放(equal-proportion scaling)。

方法选择是面向计算设备的,因为输出是针对固定集群预算的处方。论文未构建 280B 参数模型,而是选择接近 Gopher 计算预算下预定最优的 70B 模型,将节省的参数 FLOP 用于训练四倍的 token。Chinchilla 保留 Gopher 的整体架构和训练设置,同时调整 1.4T tokens 的数据集分布、切换到 AdamW、使用略作修改的 SentencePiece 词表,并保留高精度 optimizer state。

这也是数据管线适配。训练 1.4T token 需要一个能支持更多轮次通过可用数据源的数据集分布。论文在主要缩放结果中假设无限数据条件,同时承认多轮行为尚未解决。

证据

  • Chinchilla:70B 参数,1.4T training tokens。
  • Gopher:280B 参数,约 300B tokens。
  • Chinchilla 达到 67.6% 5-shot MMLU,比 Gopher 提高 7.6 个百分点。
  • BIG-bench average 为 65.1%,Gopher 为 54.4%。
  • LAMBADA zero-shot 77.4%,对比 Gopher 74.5% 和 MT-NLG 530B 76.6%。
  • Wikitext103 perplexity 7.16,对比 Gopher 7.75。The Pile 各子集 bits-per-byte 均有提升。
  • 缩放表给出更广泛的 compute 含义:175B 参数模型按论文估计应训练超过 4.2T tokens,280B Gopher 类模型需约 6.8T tokens 才能落在 compute-optimal frontier 上。

历史影响

Chinchilla 修正了早期 GPT-3/Kaplan 缩放信条。从计算结构角度看,它把密集 LLM 缩放从“把模型做更大”转向固定训练预算下的数据/模型均衡分配。重要的历史意义在于,它不需要新的加速器或架构来推动前沿;它改变了加速器预算的支出方式。

它也重新权衡了部署经济学。compute-optimal 的 70B 模型比同预训练 FLOPs 训练的 280B 模型更便宜微调和部署。这使得训练 token 规模、数据质量和推理内存成为 LLM 规划的核心要素,而非参数量之后的次要细节。

局限

  • 大规模验证昂贵,只有两个可比较的前沿运行:Chinchilla 和 Gopher。
  • 分析假设拟合的幂律前沿,作者观察到高计算预算处存在弯曲,可能意味着最优模型甚至小于主要外推预测。
  • 多轮数据复用和数据质量尚未完全解决。
  • 训练万亿 token 带来数据集治理与审查问题。

链接