计算瓶颈对照

本对照跟踪跨计算范式瓶颈。以下条目是基于阅读卡与来源报告的综合草稿；证据详情请参见所链接的卡片。

瓶颈	范式	证据	方法适配	状态
CPU 时代的优化与特征规模	2012 年前 CPU 与统计基础	Support-vector networks, large-scale SGD	SVM、反向传播和 SGD 在加速器规模密集训练出现之前，适配于规模较小的 CPU 时代数据集与特征管线	card-backed draft
密集卷积吞吐量与 GPU 内存	单 GPU 深度学习	AlexNet, VGG, GoogLeNet	CNN、ReLU 风格训练、Dropout 和紧凑卷积模块充分利用了消费级 GPU 的密集运算能力	card-backed draft
深度与批量大小约束下的训练稳定性	多 GPU 密集训练	ResNet, batch normalization, group normalization	残差连接和归一化方法使更深或分布式密集网络可训练	card-backed draft
分布式通信与模型适配	多 GPU 密集训练 / 超大规模密集 LLM 训练	ImageNet in 1 hour, Megatron-LM, ZeRO	大批量 SGD、张量并行、流水线/模型并行以及优化器状态分区以通信开销换取可行的训练规模	card-backed draft
加速器友好的密集矩阵乘法	TPU、加速器与 Transformer 时代	Attention Is All You Need, BERT, T5, TPU datacenter analysis	Transformer 和 TPU 风格工作负载强调批量密集矩阵乘法和编译器友好布局	card-backed draft
计算/数据/模型分配	超大规模密集 LLM 训练	GPT-3, Scaling Laws, Chinchilla, PaLM	缩放定律和计算最优训练决定了预算应投向参数规模、token 数量还是更长的训练时长	card-backed draft
条件计算与稀疏激活	稀疏化与内存高效扩展	MoE, GShard, Switch Transformer	混合专家增加总参数量，同时每个 token 只激活稀疏子集	card-backed draft
注意力 IO 与内存层级	稀疏化与内存高效扩展	FlashAttention, FlashAttention-2	IO-aware 精确注意力分块借助 SRAM/HBM 层级工作，减少注意力矩阵的显式存储与传输	card-backed draft
采样成本与生成模型吞吐量	生成式媒体计算	DDPM, latent diffusion, DiT, StyleGAN	扩散、GAN、VAE 和自回归图像模型以不同方式权衡加速器训练吞吐量、潜空间压缩和采样成本	card-backed draft
推理时分配与行为塑造	推理阶段计算与后训练	RAG, InstructGPT, chain-of-thought, ReAct	检索、偏好优化、推理采样和工具调用在基座模型预训练之后占用运行时或后训练计算	card-backed draft
部署内存与延迟	高效推理与边缘部署	distillation, MobileNet, LoRA, GPTQ, speculative decoding	压缩、高效架构、适配器、量化和草稿模型解码降低推理成本或适配内存	card-backed draft
硬件参数锚点	跨范式	mainstream accelerator era map, paper compute device extraction	来源报告定义了设备、内存、互联条件和 pod/GPU 规模，用于解读阅读卡	sourced draft

跨范式对照

计算瓶颈对照