计算主线
英文原文文件:compute_spine.md
这部历史以计算范式为叙事主干。方法演变居于次要地位:一种算法之所以重要,是因为它恰好适配了当时可用的设备、内存、互联条件、数据与推理约束。
编号顺序是阅读辅助结构,不代表后一范式线性取代前一范式。多 GPU 密集训练贯穿 TPU 与 LLM 时代;稀疏/MoE 与密集超大规模训练彼此交叠;推理阶段计算与预训练规模共同演进。若某一论文横跨多个范式,阅读卡应指明其主要设备约束,并链接次级方法分支。
1. 2012 年前的 CPU 与统计基础
实际计算设置以 CPU 为中心,训练小到中等规模的数据集,依赖人工特征工程,神经网络规模有限。反向传播、随机梯度下降、MNIST/LeNet、SVM 与 ImageNet 共同奠定了后续所需的度量与优化文化。
本范式有意将若干 CPU 子时期合并压缩:1980 年代工作站上的玩具神经网络、1990 年代服务器上的统计学习与核方法(kernel methods)、2000 年代 CPU-era 研究机上的深度信念/自编码器复兴、以及 2009-2011 年前后 CPU 集群上的大规模 SGD 与数据集建设。之所以维持这一压缩处理,是因为本项目选取的第一个主分支断点是向商品 GPU 张量训练的历史转向。
2. 单 GPU 深度学习
商品 GPU 使高吞吐密集张量训练成为现实。CNN、ReLU 类激活、dropout、batch normalization、Adam 和图像分类基准成为主导性的展示路径。
3. 多 GPU 密集训练
瓶颈从单设备吞吐转向同步、批大小、深度和内存稳定性。残差连接、归一化、混合精度和分布式 SGD 成为核心适配。
4. TPU、加速器与 Transformer 时代
加速器架构偏爱大规模矩阵乘、序列批处理与适合编译器的密集计算。Transformer、BERT 式预训练、T5 式 text-to-text 训练,以及早期 ViT 式工作负载都适合这种结构。
5. 超大规模密集 LLM 训练
训练栈已演变为数据中心规模的问题:密集 Transformer 扩展、模型/数据并行、优化器状态分片、数据混合设计与计算最优训练定律。
6. 稀疏化与内存高效扩展
内存、激活成本与通信压力成为一阶瓶颈。混合专家、注意力核(kernel)、长上下文近似、分片、重计算与内存高效注意力都属于计算结构层面的回应。
7. 生成媒体计算
图像与视频生成依赖 GPU/加速器吞吐、去噪迭代成本、潜空间压缩与高带宽训练数据。GAN、VAE、diffusion、latent diffusion 与 diffusion transformer 都需通过上述约束来阅读。
8. 推理阶段计算与后训练
随着基础模型变得昂贵且通用,前沿转向推理预算分配与行为塑造:RLHF、instruction tuning、chain-of-thought、self-consistency、verifier、retrieval、tool 与 agent。
9. 高效推理与边缘部署
部署约束居于主导地位:延迟、内存占用、量化误差、adapter 大小、KV-cache 压力与 speculative execution。Distillation、quantization、LoRA 式 adapter 与端侧架构是主要适配方式。
10. 搜索、仿真与科学计算
计算循环不限于监督训练。搜索、仿真、自博弈与科学结构预测将神经网络与结构化推理或领域模拟器结合。
Frontier provisional 层
第一批完成的语料刻意偏向历史上已趋稳定的信号:test-of-time 式认可、高引用量,以及下游影响已经明朗的论文。因此它自然截止于 2024 年前后,因为 2025/2026 年论文还太新,缺少成熟的引用与奖项证据。
Frontier 增补继续沿用同一套 compute-structure 规则,但将近期论文标记为 provisional。硬件/设备设置仍是主分支轴;同时,方法本身也须具备技术价值:每张阅读卡应先阐明方法贡献了什么,再解释该贡献为何适配当时可用的加速器、内存系统、互联条件、rollout/evaluator 循环与推理时预算。
阅读约束
这些章节是工作辅助结构。只有当声明链接到阅读卡、来源报告或对照条目后,才算得到支撑。