计算主线
十个计算范式
每个范式对应一个关键硬件阶段:从 CPU 时代的统计学习基础,经 GPU 深度学习,到超大规模 LLM 训练与推理阶段计算。
01
2012 年前 CPU 与统计基础
在 CPU 为主的训练、小数据集和手工特征时代,度量与优化文化先建立起来。
8 篇论文
02 单 GPU 深度学习
消费级 GPU 使高吞吐量的稠密张量训练成为可能。CNN、dropout 和批归一化成为主流方法。
12 篇论文
03 多 GPU 稠密训练
主要瓶颈变为多 GPU 间的同步、批量大小、深度与内存稳定性。
12 篇论文
04 TPU、加速器与 Transformer 时代
加速器天然适合大规模矩阵乘法和序列批处理。Transformer、BERT 和 T5 顺应了这一硬件结构。
12 篇论文
05 超大规模稠密 LLM 训练
训练成为数据中心级问题:模型/数据并行、优化器状态分片、计算最优的规模扩展。
19 篇论文
06 稀疏化与内存高效扩展
内存、激活开销和通信压力推动了 MoE、注意力内核、分片和重计算。
14 篇论文
07 生成式媒体计算
图像和视频生成依赖于 GPU 吞吐量、去噪迭代成本和潜空间压缩。
13 篇论文
08 推理阶段计算与后训练
研究前沿转向推理阶段的算力分配:RLHF、思维链、验证器、检索、工具和智能体。
20 篇论文
09 高效推理与边缘部署
部署约束成为主要瓶颈:延迟、内存占用、量化、适配器大小和 KV 缓存压力。
10 篇论文
10 搜索、仿真与科学计算
搜索、仿真、自对弈和科学结构预测结合了神经网络与结构化推理。
12 篇论文