计算瓶颈对照
英文原文文件:compute_bottlenecks.md
本对照跟踪跨计算范式瓶颈。以下条目是基于阅读卡与来源报告的综合草稿;证据详情请参见所链接的卡片。
| 瓶颈 | 范式 | 证据 | 方法适配 | 状态 |
|---|---|---|---|---|
| CPU 时代的优化与特征规模 | 2012 年前 CPU 与统计基础 | Support-vector networks, large-scale SGD | SVM、反向传播和 SGD 在加速器规模密集训练出现之前,适配于规模较小的 CPU 时代数据集与特征管线 | card-backed draft |
| 密集卷积吞吐量与 GPU 内存 | 单 GPU 深度学习 | AlexNet, VGG, GoogLeNet | CNN、ReLU 风格训练、Dropout 和紧凑卷积模块充分利用了消费级 GPU 的密集运算能力 | card-backed draft |
| 深度与批量大小约束下的训练稳定性 | 多 GPU 密集训练 | ResNet, batch normalization, group normalization | 残差连接和归一化方法使更深或分布式密集网络可训练 | card-backed draft |
| 分布式通信与模型适配 | 多 GPU 密集训练 / 超大规模密集 LLM 训练 | ImageNet in 1 hour, Megatron-LM, ZeRO | 大批量 SGD、张量并行、流水线/模型并行以及优化器状态分区以通信开销换取可行的训练规模 | card-backed draft |
| 加速器友好的密集矩阵乘法 | TPU、加速器与 Transformer 时代 | Attention Is All You Need, BERT, T5, TPU datacenter analysis | Transformer 和 TPU 风格工作负载强调批量密集矩阵乘法和编译器友好布局 | card-backed draft |
| 计算/数据/模型分配 | 超大规模密集 LLM 训练 | GPT-3, Scaling Laws, Chinchilla, PaLM | 缩放定律和计算最优训练决定了预算应投向参数规模、token 数量还是更长的训练时长 | card-backed draft |
| 条件计算与稀疏激活 | 稀疏化与内存高效扩展 | MoE, GShard, Switch Transformer | 混合专家增加总参数量,同时每个 token 只激活稀疏子集 | card-backed draft |
| 注意力 IO 与内存层级 | 稀疏化与内存高效扩展 | FlashAttention, FlashAttention-2 | IO-aware 精确注意力分块借助 SRAM/HBM 层级工作,减少注意力矩阵的显式存储与传输 | card-backed draft |
| 采样成本与生成模型吞吐量 | 生成式媒体计算 | DDPM, latent diffusion, DiT, StyleGAN | 扩散、GAN、VAE 和自回归图像模型以不同方式权衡加速器训练吞吐量、潜空间压缩和采样成本 | card-backed draft |
| 推理时分配与行为塑造 | 推理阶段计算与后训练 | RAG, InstructGPT, chain-of-thought, ReAct | 检索、偏好优化、推理采样和工具调用在基座模型预训练之后占用运行时或后训练计算 | card-backed draft |
| 部署内存与延迟 | 高效推理与边缘部署 | distillation, MobileNet, LoRA, GPTQ, speculative decoding | 压缩、高效架构、适配器、量化和草稿模型解码降低推理成本或适配内存 | card-backed draft |
| 硬件参数锚点 | 跨范式 | mainstream accelerator era map, paper compute device extraction | 来源报告定义了设备、内存、互联条件和 pod/GPU 规模,用于解读阅读卡 | sourced draft |