计算范式
十个硬件阶段
每个范式都对应一种具体的硬件环境:设备、内存、互连和数据管线约束共同决定了哪些 AI 方法能够发展。
10 个范式
132 篇论文
1986–2026 时间跨度
01 8 篇论文
2012 年前 CPU 与统计基础
在 CPU 为主的训练、小数据集和手工特征时代,度量与优化文化先建立起来。
查看详情 →
02 12 篇论文
单 GPU 深度学习
消费级 GPU 使高吞吐量的稠密张量训练成为可能。CNN、dropout 和批归一化成为主流方法。
查看详情 →
03 12 篇论文
多 GPU 稠密训练
主要瓶颈变为多 GPU 间的同步、批量大小、深度与内存稳定性。
查看详情 →
04 12 篇论文
TPU、加速器与 Transformer 时代
加速器天然适合大规模矩阵乘法和序列批处理。Transformer、BERT 和 T5 顺应了这一硬件结构。
查看详情 →
05 19 篇论文
超大规模稠密 LLM 训练
训练成为数据中心级问题:模型/数据并行、优化器状态分片、计算最优的规模扩展。
查看详情 →
06 14 篇论文
稀疏化与内存高效扩展
内存、激活开销和通信压力推动了 MoE、注意力内核、分片和重计算。
查看详情 →
07 13 篇论文
生成式媒体计算
图像和视频生成依赖于 GPU 吞吐量、去噪迭代成本和潜空间压缩。
查看详情 →
08 20 篇论文
推理阶段计算与后训练
研究前沿转向推理阶段的算力分配:RLHF、思维链、验证器、检索、工具和智能体。
查看详情 →
09 10 篇论文
高效推理与边缘部署
部署约束成为主要瓶颈:延迟、内存占用、量化、适配器大小和 KV 缓存压力。
查看详情 →
10 12 篇论文
搜索、仿真与科学计算
搜索、仿真、自对弈和科学结构预测结合了神经网络与结构化推理。
查看详情 →