Llama 2: Open Foundation and Fine-Tuned Chat Models - 中文验证版

英文原始依据卡片：llama2_2023.md

状态：已翻译。

元数据

阅读状态： read complete
年份： 2023
计算范式： 超大规模密集 LLM 训练 (hyperscale_dense_llm_training)
PDF： 2023-llama2_2023.pdf
抽取文本： 2023-llama2_2023.txt
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期： 2026-06-15

计算设置

论文明确披露了硬件。Llama 2 预训练在 Meta 的 Research Super Cluster 和内部生产集群上运行，两者均使用 NVIDIA A100s。RSC 使用 NVIDIA Quantum InfiniBand，而生产集群使用基于标准以太网交换机的 RoCE；两者连接 200 Gbps 端点。论文强调这是一个互连对比，并报告 RoCE 在最多 2000 个 GPU 的扩展中"几乎同样好"。功耗上限不同：RSC 为每个 GPU 400 W，生产集群为 350 W。

训练规模以 GPU 小时按模型大小给出：7B 为 184,320 GPU 小时，13B 为 368,640，34B 为 1,038,336，70B 为 1,720,320，总计 3,311,616 A100-80GB GPU 小时。碳核算报告预训练为 539 tCO2e，但排除了互连、非 GPU 服务器功耗、数据中心冷却和硬件制造。微调、标注和评估使用了第三方云计算，但未给出确切设备。

模型规模为密集 LLM 预训练：7B、13B、34B 和 70B 参数变体，全部在 2T 预训练 tokens 上以 4K 上下文和 4M tokens 的全局 batch size 训练。更大的 34B 和 70B 模型使用分组查询注意力以改善推理可扩展性。

瓶颈

预训练瓶颈是密集 Transformer 的 FLOPs、内存和分布式通信的混合体。4M token 全局 batch 和 4K 上下文需要许多 A100s 才能高效运行，而每个 token 都触及全部参数。论文对 RoCE 与 InfiniBand 的关注是一个计算结构线索：在此规模下，互连的价格/性能成为模型配方的一部分。

推理瓶颈则不同。Llama 2 将上下文长度从 Llama 1 的 2K 翻倍到 4K，增加了注意力 KV 缓存内存和每个 token 的带宽。34B 和 70B 变体采用分组查询注意力：更少的 key/value head 减少缓存大小和自回归解码期间的内存流量，同时保留许多 query head。

内存上限使这一设计选择变得具体。一个 70B 模型在激活之前约有 1.12 TB 的混合精度 Adam 训练状态（每个参数 16 字节）。对于 BF16 推理，70B 权重本身约 140 GB。使用 8 个 KV head、80 层、head 维度 128 和 4096 token 上下文，batch-1 KV 缓存约 1.3 GB，但 batch 32 将该缓存提升到约 43 GB。因此 Llama 2 的推理限制在小 batch 时由权重主导，随着 batch 大小和上下文增长越来越由 KV 缓存主导。

后训练增加了另一个瓶颈：生成、排序和从许多候选响应中学习。奖励建模使用二元比较，并训练独立的 helpfulness 和 safety 奖励模型。拒绝采样仅在最大的 70B chat 模型上执行；较小的模型随后在 70B 选择的数据上进行微调，有效地将昂贵的推理时搜索蒸馏到较小的检查点中。PPO 和奖励模型评分对生成的序列增加额外的处理次数，因此对齐计算既是训练负载也是推理负载。

方法适配

基座模型配方是保守且硬件感知的：RMSNorm、SwiGLU、旋转位置编码（RoPE）、AdamW（beta1 0.9，beta2 0.95）、余弦调度、2000 warmup 步、weight decay 0.1、gradient clipping 1.0。计算适配体现在一次更大且更干净的运行：比 Llama 1 多 40% 的总 tokens、4K 上下文、2T tokens 和 4M token 全局 batch。作者指出在 2T tokens 后模型仍未显示饱和迹象，将发布描述为受计算限制而非数据饱和。

分组查询注意力（GQA）是最明确的推理适配。只有 34B 和 70B 使用它，正是在 KV 缓存和解码带宽最痛苦的层级。这是为推理经济学改变架构的好例子：预训练保持密集和简单，但注意力布局经调整使长上下文、大模型解码更具可扩展性。

Chat 管线通过分离阶段来适配对齐计算。SFT 使用序列长度 4096 和 batch size 64。奖励模型从 chat 检查点初始化，并以有效 batch size 512 对（即 1024 行）进行训练。拒绝采样采样多个答案，用当前奖励模型评分，并在最佳答案上训练；论文研究了从 1 到 100 的 N，并指出最优温度在 RLHF 期间变化，当采样 10 到 100 个输出时，温度约 1.2 到 1.3 对 RLHF 模型最优。PPO 随后针对奖励模型进行优化。这是将额外的推理预算显式转换为更好的监督目标和策略更新。

证据

来源同时提供计算和基准证据。表 1 将所有 Llama 2 基座模型列为 2T token、4K 上下文运行，具有 4M token 全局 batch。表 2 列出了整个家族 3.3M A100-80GB GPU 小时。硬件部分指出 RoCE 生产集群在最多 2000 个 GPU 的扩展中足够接近 InfiniBand，使大规模训练更经济。

在分组的学术基准测试中，Llama 2 70B 在表 3 中报告 code 37.5、common-sense reasoning 71.9、world knowledge 63.6、reading comprehension 69.4、math 35.2、MMLU 68.9、BBH 51.2 和 AGI Eval 54.2。论文摘要称 Llama 2 70B 在 MMLU 上比 Llama 1 65B 提高约 5 分，在 BBH 上提高约 8 分，在该比较中击败所有开源基座模型，在 MMLU 和 GSM8K 上接近 GPT-3.5，但在若干基准测试（尤其是 code）上仍远落后于 GPT-4 和 PaLM-2-L。

对齐证据是计算塑造的。奖励模型缩放随更多数据和更大模型而改进。拒绝采样显示中位数与最大奖励之间的差距随采样数量增长，这是额外候选生成可以成为更高奖励训练数据的直接证据。

历史影响

Llama 2 以异常具体的计算术语暴露了工业规模密集 LLM 配方。它表明一个精心调参的密集 Transformer，在数百万 A100 小时上以 2T tokens 训练，可以定义开源模型前沿，并且它使同时发布基座和 chat 变体成为常态。

在计算方面，它通过 GQA 使推理约束在架构内可见，并通过 RoCE/InfiniBand 对比使互连经济学可见。该发布帮助将开源 LLM 工作转向可复现的训练配方、长上下文密集模型，以及使用推理时采样和奖励建模作为主要计算消费者的对齐管线。

局限

硬件披露对预训练是好的，但对整个系统不完整。微调、标注、评估和第三方云计算被提及但未按 GPU 类型、GPU 小时或碳排放分解。碳估算排除非 GPU 服务器功耗、互连功耗、数据中心冷却和硬件生命周期排放，因此 539 tCO2e 数字不是完整的生命周期总量。

模型本身仍以英语为主且静态，预训练数据截止于 2022 年 9 月。安全覆盖不完整；34B chat 模型延迟发布，因为没有足够时间进行 red-team 测试。RLHF 引入了自己的计算质量风险：奖励模型漂移、跨迭代 chat 模型的分布偏移、拒绝采样迭代期间的能力退步，以及在从许多生成样本中选择时的温度/预算敏感性。

链接

计算范式：history/compute_regimes/hyperscale_dense_llm_training/README.md
来源 PDF 和抽取文本见上方元数据。
Queue 状态：read_complete。