计算主线

这部历史以计算范式为叙事主干。方法演变居于次要地位：一种算法之所以重要，是因为它恰好适配了当时可用的设备、内存、互联条件、数据与推理约束。

编号顺序是阅读辅助结构，不代表后一范式线性取代前一范式。多 GPU 密集训练贯穿 TPU 与 LLM 时代；稀疏/MoE 与密集超大规模训练彼此交叠；推理阶段计算与预训练规模共同演进。若某一论文横跨多个范式，阅读卡应指明其主要设备约束，并链接次级方法分支。

1. 2012 年前的 CPU 与统计基础

实际计算设置以 CPU 为中心，训练小到中等规模的数据集，依赖人工特征工程，神经网络规模有限。反向传播、随机梯度下降、MNIST/LeNet、SVM 与 ImageNet 共同奠定了后续所需的度量与优化文化。

本范式有意将若干 CPU 子时期合并压缩：1980 年代工作站上的玩具神经网络、1990 年代服务器上的统计学习与核方法（kernel methods）、2000 年代 CPU-era 研究机上的深度信念/自编码器复兴、以及 2009-2011 年前后 CPU 集群上的大规模 SGD 与数据集建设。之所以维持这一压缩处理，是因为本项目选取的第一个主分支断点是向商品 GPU 张量训练的历史转向。

2. 单 GPU 深度学习

商品 GPU 使高吞吐密集张量训练成为现实。CNN、ReLU 类激活、dropout、batch normalization、Adam 和图像分类基准成为主导性的展示路径。

3. 多 GPU 密集训练

瓶颈从单设备吞吐转向同步、批大小、深度和内存稳定性。残差连接、归一化、混合精度和分布式 SGD 成为核心适配。

4. TPU、加速器与 Transformer 时代

加速器架构偏爱大规模矩阵乘、序列批处理与适合编译器的密集计算。Transformer、BERT 式预训练、T5 式 text-to-text 训练，以及早期 ViT 式工作负载都适合这种结构。

5. 超大规模密集 LLM 训练

训练栈已演变为数据中心规模的问题：密集 Transformer 扩展、模型/数据并行、优化器状态分片、数据混合设计与计算最优训练定律。

6. 稀疏化与内存高效扩展

内存、激活成本与通信压力成为一阶瓶颈。混合专家、注意力核（kernel）、长上下文近似、分片、重计算与内存高效注意力都属于计算结构层面的回应。

7. 生成媒体计算

图像与视频生成依赖 GPU/加速器吞吐、去噪迭代成本、潜空间压缩与高带宽训练数据。GAN、VAE、diffusion、latent diffusion 与 diffusion transformer 都需通过上述约束来阅读。

8. 推理阶段计算与后训练

随着基础模型变得昂贵且通用，前沿转向推理预算分配与行为塑造：RLHF、instruction tuning、chain-of-thought、self-consistency、verifier、retrieval、tool 与 agent。

9. 高效推理与边缘部署

部署约束居于主导地位：延迟、内存占用、量化误差、adapter 大小、KV-cache 压力与 speculative execution。Distillation、quantization、LoRA 式 adapter 与端侧架构是主要适配方式。

10. 搜索、仿真与科学计算

计算循环不限于监督训练。搜索、仿真、自博弈与科学结构预测将神经网络与结构化推理或领域模拟器结合。

Frontier provisional 层

第一批完成的语料刻意偏向历史上已趋稳定的信号：test-of-time 式认可、高引用量，以及下游影响已经明朗的论文。因此它自然截止于 2024 年前后，因为 2025/2026 年论文还太新，缺少成熟的引用与奖项证据。

Frontier 增补继续沿用同一套 compute-structure 规则，但将近期论文标记为 provisional。硬件/设备设置仍是主分支轴；同时，方法本身也须具备技术价值：每张阅读卡应先阐明方法贡献了什么，再解释该贡献为何适配当时可用的加速器、内存系统、互联条件、rollout/evaluator 循环与推理时预算。

阅读约束

这些章节是工作辅助结构。只有当声明链接到阅读卡、来源报告或对照条目后，才算得到支撑。

十个计算范式