跨计算范式的证据与差异

跨范式对照

← 首页

计算瓶颈对照

英文原文文件:compute_bottlenecks.md

本对照跟踪跨计算范式瓶颈。以下条目是基于阅读卡与来源报告的综合草稿;证据详情请参见所链接的卡片。

瓶颈 范式 证据 方法适配 状态
CPU 时代的优化与特征规模 2012 年前 CPU 与统计基础 Support-vector networks, large-scale SGD SVM、反向传播和 SGD 在加速器规模密集训练出现之前,适配于规模较小的 CPU 时代数据集与特征管线 card-backed draft
密集卷积吞吐量与 GPU 内存 单 GPU 深度学习 AlexNet, VGG, GoogLeNet CNN、ReLU 风格训练、Dropout 和紧凑卷积模块充分利用了消费级 GPU 的密集运算能力 card-backed draft
深度与批量大小约束下的训练稳定性 多 GPU 密集训练 ResNet, batch normalization, group normalization 残差连接和归一化方法使更深或分布式密集网络可训练 card-backed draft
分布式通信与模型适配 多 GPU 密集训练 / 超大规模密集 LLM 训练 ImageNet in 1 hour, Megatron-LM, ZeRO 大批量 SGD、张量并行、流水线/模型并行以及优化器状态分区以通信开销换取可行的训练规模 card-backed draft
加速器友好的密集矩阵乘法 TPU、加速器与 Transformer 时代 Attention Is All You Need, BERT, T5, TPU datacenter analysis Transformer 和 TPU 风格工作负载强调批量密集矩阵乘法和编译器友好布局 card-backed draft
计算/数据/模型分配 超大规模密集 LLM 训练 GPT-3, Scaling Laws, Chinchilla, PaLM 缩放定律和计算最优训练决定了预算应投向参数规模、token 数量还是更长的训练时长 card-backed draft
条件计算与稀疏激活 稀疏化与内存高效扩展 MoE, GShard, Switch Transformer 混合专家增加总参数量,同时每个 token 只激活稀疏子集 card-backed draft
注意力 IO 与内存层级 稀疏化与内存高效扩展 FlashAttention, FlashAttention-2 IO-aware 精确注意力分块借助 SRAM/HBM 层级工作,减少注意力矩阵的显式存储与传输 card-backed draft
采样成本与生成模型吞吐量 生成式媒体计算 DDPM, latent diffusion, DiT, StyleGAN 扩散、GAN、VAE 和自回归图像模型以不同方式权衡加速器训练吞吐量、潜空间压缩和采样成本 card-backed draft
推理时分配与行为塑造 推理阶段计算与后训练 RAG, InstructGPT, chain-of-thought, ReAct 检索、偏好优化、推理采样和工具调用在基座模型预训练之后占用运行时或后训练计算 card-backed draft
部署内存与延迟 高效推理与边缘部署 distillation, MobileNet, LoRA, GPTQ, speculative decoding 压缩、高效架构、适配器、量化和草稿模型解码降低推理成本或适配内存 card-backed draft
硬件参数锚点 跨范式 mainstream accelerator era map, paper compute device extraction 来源报告定义了设备、内存、互联条件和 pod/GPU 规模,用于解读阅读卡 sourced draft