AI 计算结构史

一部以硬件为主线的历史
关于人工智能

“在既有硬件、内存、互连、数据管线和推理部署条件下，哪些 AI 方法得以落地、成为主流，又有哪些被淘汰？”

本项目从硬件视角重读 AI 历史。从 1986 年到 2026 年，132 篇研究论文归入10 个计算范式：每个范式都由设备约束、内存上限和互连条件共同界定，并决定哪些方法可行、哪些方法难以成立。

132

论文卡片

计算范式

1986–2026

时间跨度

方法条目

查看计算主线浏览论文加速器时间线

计算主线

十个计算范式

每个范式对应一个关键硬件阶段：从 CPU 时代的统计学习基础，经 GPU 深度学习，到超大规模 LLM 训练与推理阶段计算。

2012 年前 CPU 与统计基础

在 CPU 为主的训练、小数据集和手工特征时代，度量与优化文化先建立起来。

8 篇论文

单 GPU 深度学习

消费级 GPU 使高吞吐量的稠密张量训练成为可能。CNN、dropout 和批归一化成为主流方法。

12 篇论文

多 GPU 稠密训练

主要瓶颈变为多 GPU 间的同步、批量大小、深度与内存稳定性。

12 篇论文

TPU、加速器与 Transformer 时代

加速器天然适合大规模矩阵乘法和序列批处理。Transformer、BERT 和 T5 顺应了这一硬件结构。

12 篇论文

超大规模稠密 LLM 训练

训练成为数据中心级问题：模型/数据并行、优化器状态分片、计算最优的规模扩展。

19 篇论文

稀疏化与内存高效扩展

内存、激活开销和通信压力推动了 MoE、注意力内核、分片和重计算。

14 篇论文

生成式媒体计算

图像和视频生成依赖于 GPU 吞吐量、去噪迭代成本和潜空间压缩。

13 篇论文

推理阶段计算与后训练

研究前沿转向推理阶段的算力分配：RLHF、思维链、验证器、检索、工具和智能体。

20 篇论文

高效推理与边缘部署

部署约束成为主要瓶颈：延迟、内存占用、量化、适配器大小和 KV 缓存压力。

10 篇论文

搜索、仿真与科学计算

搜索、仿真、自对弈和科学结构预测结合了神经网络与结构化推理。

12 篇论文

查看完整脉络

一部以硬件为主线的历史 关于人工智能

十个计算范式

2012 年前 CPU 与统计基础

单 GPU 深度学习

多 GPU 稠密训练

TPU、加速器与 Transformer 时代

超大规模稠密 LLM 训练

稀疏化与内存高效扩展

生成式媒体计算

推理阶段计算与后训练

高效推理与边缘部署

搜索、仿真与科学计算

一部以硬件为主线的历史
关于人工智能