计算范式

十个硬件阶段

每个范式都对应一种具体的硬件环境:设备、内存、互连和数据管线约束共同决定了哪些 AI 方法能够发展。

10 个范式
132 篇论文
1986–2026 时间跨度
01 8 篇论文

2012 年前 CPU 与统计基础

在 CPU 为主的训练、小数据集和手工特征时代,度量与优化文化先建立起来。

查看详情 →
02 12 篇论文

单 GPU 深度学习

消费级 GPU 使高吞吐量的稠密张量训练成为可能。CNN、dropout 和批归一化成为主流方法。

查看详情 →
03 12 篇论文

多 GPU 稠密训练

主要瓶颈变为多 GPU 间的同步、批量大小、深度与内存稳定性。

查看详情 →
04 12 篇论文

TPU、加速器与 Transformer 时代

加速器天然适合大规模矩阵乘法和序列批处理。Transformer、BERT 和 T5 顺应了这一硬件结构。

查看详情 →
05 19 篇论文

超大规模稠密 LLM 训练

训练成为数据中心级问题:模型/数据并行、优化器状态分片、计算最优的规模扩展。

查看详情 →
06 14 篇论文

稀疏化与内存高效扩展

内存、激活开销和通信压力推动了 MoE、注意力内核、分片和重计算。

查看详情 →
07 13 篇论文

生成式媒体计算

图像和视频生成依赖于 GPU 吞吐量、去噪迭代成本和潜空间压缩。

查看详情 →
08 20 篇论文

推理阶段计算与后训练

研究前沿转向推理阶段的算力分配:RLHF、思维链、验证器、检索、工具和智能体。

查看详情 →
09 10 篇论文

高效推理与边缘部署

部署约束成为主要瓶颈:延迟、内存占用、量化、适配器大小和 KV 缓存压力。

查看详情 →
10 12 篇论文

搜索、仿真与科学计算

搜索、仿真、自对弈和科学结构预测结合了神经网络与结构化推理。

查看详情 →