Llama 2: Open Foundation and Fine-Tuned Chat Models

下载 PDF

Llama 2: Open Foundation and Fine-Tuned Chat Models - 中文验证版

英文原始依据卡片:llama2_2023.md

状态:已翻译。

元数据

  • 阅读状态: read complete
  • 年份: 2023
  • 计算范式: 超大规模密集 LLM 训练 (hyperscale_dense_llm_training)
  • PDF: 2023-llama2_2023.pdf
  • 抽取文本: 2023-llama2_2023.txt
  • OpenAlex:
  • 引用计数来源/日期:
  • 引用计数:
  • 阅读卡创建日期: 2026-06-15

计算设置

论文明确披露了硬件。Llama 2 预训练在 Meta 的 Research Super Cluster 和内部生产集群上运行,两者均使用 NVIDIA A100s。RSC 使用 NVIDIA Quantum InfiniBand,而生产集群使用基于标准以太网交换机的 RoCE;两者连接 200 Gbps 端点。论文强调这是一个互连对比,并报告 RoCE 在最多 2000 个 GPU 的扩展中"几乎同样好"。功耗上限不同:RSC 为每个 GPU 400 W,生产集群为 350 W。

训练规模以 GPU 小时按模型大小给出:7B 为 184,320 GPU 小时,13B 为 368,640,34B 为 1,038,336,70B 为 1,720,320,总计 3,311,616 A100-80GB GPU 小时。碳核算报告预训练为 539 tCO2e,但排除了互连、非 GPU 服务器功耗、数据中心冷却和硬件制造。微调、标注和评估使用了第三方云计算,但未给出确切设备。

模型规模为密集 LLM 预训练:7B、13B、34B 和 70B 参数变体,全部在 2T 预训练 tokens 上以 4K 上下文和 4M tokens 的全局 batch size 训练。更大的 34B 和 70B 模型使用分组查询注意力以改善推理可扩展性。

瓶颈

预训练瓶颈是密集 Transformer 的 FLOPs、内存和分布式通信的混合体。4M token 全局 batch 和 4K 上下文需要许多 A100s 才能高效运行,而每个 token 都触及全部参数。论文对 RoCE 与 InfiniBand 的关注是一个计算结构线索:在此规模下,互连的价格/性能成为模型配方的一部分。

推理瓶颈则不同。Llama 2 将上下文长度从 Llama 1 的 2K 翻倍到 4K,增加了注意力 KV 缓存内存和每个 token 的带宽。34B 和 70B 变体采用分组查询注意力:更少的 key/value head 减少缓存大小和自回归解码期间的内存流量,同时保留许多 query head。

内存上限使这一设计选择变得具体。一个 70B 模型在激活之前约有 1.12 TB 的混合精度 Adam 训练状态(每个参数 16 字节)。对于 BF16 推理,70B 权重本身约 140 GB。使用 8 个 KV head、80 层、head 维度 128 和 4096 token 上下文,batch-1 KV 缓存约 1.3 GB,但 batch 32 将该缓存提升到约 43 GB。因此 Llama 2 的推理限制在小 batch 时由权重主导,随着 batch 大小和上下文增长越来越由 KV 缓存主导。

后训练增加了另一个瓶颈:生成、排序和从许多候选响应中学习。奖励建模使用二元比较,并训练独立的 helpfulness 和 safety 奖励模型。拒绝采样仅在最大的 70B chat 模型上执行;较小的模型随后在 70B 选择的数据上进行微调,有效地将昂贵的推理时搜索蒸馏到较小的检查点中。PPO 和奖励模型评分对生成的序列增加额外的处理次数,因此对齐计算既是训练负载也是推理负载。

方法适配

基座模型配方是保守且硬件感知的:RMSNorm、SwiGLU、旋转位置编码(RoPE)、AdamW(beta1 0.9,beta2 0.95)、余弦调度、2000 warmup 步、weight decay 0.1、gradient clipping 1.0。计算适配体现在一次更大且更干净的运行:比 Llama 1 多 40% 的总 tokens、4K 上下文、2T tokens 和 4M token 全局 batch。作者指出在 2T tokens 后模型仍未显示饱和迹象,将发布描述为受计算限制而非数据饱和。

分组查询注意力(GQA)是最明确的推理适配。只有 34B 和 70B 使用它,正是在 KV 缓存和解码带宽最痛苦的层级。这是为推理经济学改变架构的好例子:预训练保持密集和简单,但注意力布局经调整使长上下文、大模型解码更具可扩展性。

Chat 管线通过分离阶段来适配对齐计算。SFT 使用序列长度 4096 和 batch size 64。奖励模型从 chat 检查点初始化,并以有效 batch size 512 对(即 1024 行)进行训练。拒绝采样采样多个答案,用当前奖励模型评分,并在最佳答案上训练;论文研究了从 1 到 100 的 N,并指出最优温度在 RLHF 期间变化,当采样 10 到 100 个输出时,温度约 1.2 到 1.3 对 RLHF 模型最优。PPO 随后针对奖励模型进行优化。这是将额外的推理预算显式转换为更好的监督目标和策略更新。

证据

来源同时提供计算和基准证据。表 1 将所有 Llama 2 基座模型列为 2T token、4K 上下文运行,具有 4M token 全局 batch。表 2 列出了整个家族 3.3M A100-80GB GPU 小时。硬件部分指出 RoCE 生产集群在最多 2000 个 GPU 的扩展中足够接近 InfiniBand,使大规模训练更经济。

在分组的学术基准测试中,Llama 2 70B 在表 3 中报告 code 37.5、common-sense reasoning 71.9、world knowledge 63.6、reading comprehension 69.4、math 35.2、MMLU 68.9、BBH 51.2 和 AGI Eval 54.2。论文摘要称 Llama 2 70B 在 MMLU 上比 Llama 1 65B 提高约 5 分,在 BBH 上提高约 8 分,在该比较中击败所有开源基座模型,在 MMLU 和 GSM8K 上接近 GPT-3.5,但在若干基准测试(尤其是 code)上仍远落后于 GPT-4 和 PaLM-2-L。

对齐证据是计算塑造的。奖励模型缩放随更多数据和更大模型而改进。拒绝采样显示中位数与最大奖励之间的差距随采样数量增长,这是额外候选生成可以成为更高奖励训练数据的直接证据。

历史影响

Llama 2 以异常具体的计算术语暴露了工业规模密集 LLM 配方。它表明一个精心调参的密集 Transformer,在数百万 A100 小时上以 2T tokens 训练,可以定义开源模型前沿,并且它使同时发布基座和 chat 变体成为常态。

在计算方面,它通过 GQA 使推理约束在架构内可见,并通过 RoCE/InfiniBand 对比使互连经济学可见。该发布帮助将开源 LLM 工作转向可复现的训练配方、长上下文密集模型,以及使用推理时采样和奖励建模作为主要计算消费者的对齐管线。

局限

硬件披露对预训练是好的,但对整个系统不完整。微调、标注、评估和第三方云计算被提及但未按 GPU 类型、GPU 小时或碳排放分解。碳估算排除非 GPU 服务器功耗、互连功耗、数据中心冷却和硬件生命周期排放,因此 539 tCO2e 数字不是完整的生命周期总量。

模型本身仍以英语为主且静态,预训练数据截止于 2022 年 9 月。安全覆盖不完整;34B chat 模型延迟发布,因为没有足够时间进行 red-team 测试。RLHF 引入了自己的计算质量风险:奖励模型漂移、跨迭代 chat 模型的分布偏移、拒绝采样迭代期间的能力退步,以及在从许多生成样本中选择时的温度/预算敏感性。

链接

  • 计算范式:history/compute_regimes/hyperscale_dense_llm_training/README.md
  • 来源 PDF 和抽取文本见上方元数据。
  • Queue 状态:read_complete