Training Compute-Optimal Large Language Models - 中文验证版

英文原始依据卡片：chinchilla_2022.md

状态：已翻译。

元数据

Slug： chinchilla_2022
年份： 2022
会议： arXiv
作者： Jordan Hoffmann et al.
阅读状态： read complete
计算范式： 超大规模密集 LLM 训练
主要来源： PDF、抽取文本

计算设置

论文明确说明所分析模型使用 JAX 和 Haiku 在 TPU v3 与 TPU v4 上训练。抽取文本没有给出 Chinchilla 的精确 chip count 或 pod layout。按项目规则，这是 2021-2022 DeepMind 数据中心加速器训练，而非 commodity GPU 或边缘推理。

核心比较是固定 compute 对比。Chinchilla 有 70B 参数并在 1.4T tokens 上训练，使用与 Gopher 相同的 FLOPs（Gopher budget 在缩放图中为 5.76e23 FLOPs）；Gopher 有 280B 参数并在约 300B tokens 上训练。

训练超参数表还揭示了计算结构差异。Gopher 的 batch size 为 3M tokens（后期加倍至 6M），而 Chinchilla 使用 1.5M tokens（后期加倍至 3M）。Chinchilla 的前向和反向传播以 bfloat16 计算，而 float32 权重副本保留在 optimizer state 中——一种内存/精度折衷。

瓶颈

瓶颈是计算分配。早期大型语言模型常使用约 300B 训练 token，相对其参数量为训练不足。问题在于，如何在固定 FLOP 预算下分配参数量和训练 token。

这也是内存和推理瓶颈。280B 模型的参数内存占用和每 token 推理成本远高于 70B 模型。若两者消耗相同的预训练 FLOPs，较小的 compute-optimal 模型双重受益：训练更多数据，且后续微调和部署更便宜。Chinchilla 将下游推理成本纳入 scaling law 论证。

方法适配

Chinchilla 通过改变 size/token 比率而非引入新架构来调整 dense Transformer 配方。作者进行了超过 400 次训练运行，模型规模从数千万到超过 16B 参数，token 数从 5B 到超过 400B，然后拟合三种方法：固定模型规模变化 tokens、IsoFLOP 曲线、以及参数化 loss 模型。三种方法均预测，随着 compute 增加，parameters 和 training tokens 应以近乎相等的比例缩放（equal-proportion scaling）。

方法选择是面向计算设备的，因为输出是针对固定集群预算的处方。论文未构建 280B 参数模型，而是选择接近 Gopher 计算预算下预定最优的 70B 模型，将节省的参数 FLOP 用于训练四倍的 token。Chinchilla 保留 Gopher 的整体架构和训练设置，同时调整 1.4T tokens 的数据集分布、切换到 AdamW、使用略作修改的 SentencePiece 词表，并保留高精度 optimizer state。

这也是数据管线适配。训练 1.4T token 需要一个能支持更多轮次通过可用数据源的数据集分布。论文在主要缩放结果中假设无限数据条件，同时承认多轮行为尚未解决。

证据

Chinchilla：70B 参数，1.4T training tokens。
Gopher：280B 参数，约 300B tokens。
Chinchilla 达到 67.6% 5-shot MMLU，比 Gopher 提高 7.6 个百分点。
BIG-bench average 为 65.1%，Gopher 为 54.4%。
LAMBADA zero-shot 77.4%，对比 Gopher 74.5% 和 MT-NLG 530B 76.6%。
Wikitext103 perplexity 7.16，对比 Gopher 7.75。The Pile 各子集 bits-per-byte 均有提升。
缩放表给出更广泛的 compute 含义：175B 参数模型按论文估计应训练超过 4.2T tokens，280B Gopher 类模型需约 6.8T tokens 才能落在 compute-optimal frontier 上。

历史影响

Chinchilla 修正了早期 GPT-3/Kaplan 缩放信条。从计算结构角度看，它把密集 LLM 缩放从“把模型做更大”转向固定训练预算下的数据/模型均衡分配。重要的历史意义在于，它不需要新的加速器或架构来推动前沿；它改变了加速器预算的支出方式。

它也重新权衡了部署经济学。compute-optimal 的 70B 模型比同预训练 FLOPs 训练的 280B 模型更便宜微调和部署。这使得训练 token 规模、数据质量和推理内存成为 LLM 规划的核心要素，而非参数量之后的次要细节。

局限

大规模验证昂贵，只有两个可比较的前沿运行：Chinchilla 和 Gopher。
分析假设拟合的幂律前沿，作者观察到高计算预算处存在弯曲，可能意味着最优模型甚至小于主要外推预测。
多轮数据复用和数据质量尚未完全解决。
训练万亿 token 带来数据集治理与审查问题。

链接

所属计算范式：compute spine
相关卡片：Scaling Laws 2020
方法索引：scaling_laws、transformer
对照更新：compute bottlenecks