A Survey of Large Language Models - 中文验证版

英文原始依据卡片：llm_survey_2023.md

状态：已翻译。

元数据

阅读状态： read complete
年份： 2023
计算范式： 超大规模密集 LLM 训练 (hyperscale_dense_llm_training)
PDF： 2023-llm_survey_2023.pdf
抽取文本： 2023-llm_survey_2023.txt
PDF URL： https://arxiv.org/pdf/2303.18223.pdf
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期： 2026-06-15

计算设置

这是一篇综述而非原创实验论文，因此没有单一的训练运行、硬件分配或推理部署可供重建。本地抽取源是 arXiv:2303.18223v19，日期为 2026 年 3 月 18 日，而阅读卡被分配到 2023 年。对于本项目，它应用作次要的分类/上下文，并作为指向主要卡片的指针，而非 2023 年硬件主张的唯一来源。

然而，综述确实在其模型统计表中收集了设备时代证据。例子包括 T5 11B 在 1,024 个 TPU v3 芯片上训练，T0 11B 在 512 个 TPU v3 上训练 27 小时，GPT-NeoX-20B 在 96 个 40GB A100 GPU 上训练，OPT 175B 在 992 个 80GB A100 GPU 上训练，BLOOM 176B 在 384 个 80GB A100 GPU 上训练 105 天，LLaMA 65B 在 2,048 个 80GB A100 GPU 上训练 21 天，StarCoder 15.5B 在 512 个 40GB A100 GPU 上训练，LLaMA2 70B 在 2,000 个 80GB A100 GPU 上训练。对于原始论文遗漏硬件的模型，如此表中的 GPT-3，本卡应保留该遗漏并推迟到主要证据或项目推断规则。

瓶颈

综述的计算瓶颈是整个 LLM 堆栈而非单一设备。它强调 LLM 训练需要大规模数据处理和分布式并行训练，并且研究和工程不再清晰分离。模型和数据集大小将两个技术问题推到前台：提高训练吞吐量和将更大的模型加载到 GPU 内存中。综述还围绕模型大小、数据集大小和训练计算来构建缩放定律，Chinchilla 式分析认为参数和 tokens 之间的计算分配很重要，而不仅是原始模型大小。

在综述的后续实用部分，内存是一个首要瓶颈。它估计在混合精度 Adam/AdamW 训练期间，对于参数为 P 的模型，模型状态需要 16P 字节：FP16/BF16 参数和梯度加上 FP32 优化器状态。它以 LLaMA-7B 为例，仅模型状态就需要约 100GB，在激活之前。它还估计 LLaMA-7B 对于 batch size 1 和序列长度 2,048，激活可能占用每个设备 16GB。这些数字解释了为什么即使是"小"的数十亿参数模型在使用标准优化器训练时已经超过单个商用 GPU。

方法适配

综述组织了使 LLM 工作适配硬件约束的方法。对于训练，它将 3D 并行描述为数据并行、流水线并行和张量并行的组合。数据并行通过分割 batch 来提高吞吐量，但复制模型状态；流水线并行跨 GPU 分割层，但产生气泡开销；张量并行分割参数矩阵并在不同设备上执行部分矩阵乘法。综述指出这些方法通常组合使用，引用 BLOOM 在 384 个 A100 GPU 上使用 8 路数据并行、4 路张量并行和 12 路流水线并行。

节省内存的技术被呈现为必要的补充。混合精度减少内存和通信；FP16 在 A100 等 GPU 上更快但可能损害数值精度，而 BF16 保留更多指数范围，通常更适合预训练表示精度。ZeRO 和 FSDP 通过跨 GPU 分片优化器状态、梯度和参数来减少冗余；激活重计算/检查点以额外计算换取更低的激活内存。综述还指出 FlashAttention 和序列并行是减少注意力 IO 和分布长序列工作的方法。

对于推理，综述将 prefill 和解码分开。Prefill 处理 prompt 并构建 KV 缓存；解码自回归生成新 tokens 并反复读取缓存的 keys 和 values。其算术强度分析指出，在类似 A100 的 GPU 上，prefill 受计算限制，而解码受内存传输速度限制，即"内存墙"。这催生了 Flash-Decoding、PagedAttention、vLLM 中的 continuous batching、量化以及投机/级联式解码。

证据

本卡中最强的证据是比较性和次要的。硬件表显示 2022-2023 年向 A100-80GB 集群作为默认开源模型训练基质的转型：OPT 在 992 个 A100-80GB 上，BLOOM 在 384 个 A100-80GB 上，LLaMA 在 2,048 个 A100-80GB 上，StarCoder 在 512 个 A100-40GB 上，LLaMA2 在 2,000 个 A100-80GB 上。同一表格记录了非 NVIDIA 系统，如 TPU v3/v4 和 Ascend 910，使其对理解设备时代背景有用。综述的训练部分给出了命名框架，包括 DeepSpeed、Megatron-LM、Colossal-AI、Alpa、ZeRO、FSDP、gradient checkpointing 和 BF16，作为使这些集群可用的实用工具包。

证据不应被过度解读。因为这是 2026 年的 v19 版本，并且许多行总结其他论文，任何关于模型实际运行的精确声明都应对照该模型的主要卡片进行验证。综述最好用于将孤立的卡片连接成计算地图：缩放定律定义了为什么 tokens 和参数可以权衡，分布式并行解释了模型如何适配，内存分析解释了为什么优化器状态主导训练，推理分析解释了为什么在 prompt prefill 之后，推理通常受带宽限制。

历史影响

从历史角度看，这篇综述是一个整合点。它将 LLM 发展编纂为一组相互关联的计算问题：数据构建、规模预测、分布式训练、适配调优、工具使用、检索、评估和部署。对本历史项目而言，其价值不在于单一结果，而在于一份检查清单：主要论文卡片应涵盖缩放定律、密集预训练、并行、内存优化、RLHF、指令调优、工具/RAG 推理、量化和推理部署。

局限

局限性是实质性的。本地来源是 2026 年的较晚版本，因此它包含后续工作和术语，不应在没有审慎的情况下回溯投影到 2023 年初。作为一篇综述，它有时压缩硬件行并省略了主要论文详细讨论的注意事项。它不能替代关于确切设备、batch size、互连、任务可靠性或 wall-clock 时间的直接证据。应用它来识别计算结构，然后将精确的历史主张附加到主要来源，如 GPT-NeoX、OPT、BLOOM、LLaMA、Llama 3、FlashAttention 或 ZeRO。

链接

计算范式：history/compute_regimes/hyperscale_dense_llm_training/README.md
来源 PDF 和抽取文本见上方元数据。
Queue 状态：read_complete。
方法索引：transformer、scaling_laws
对照更新：compute bottlenecks