数据专题

AI 加速器时间线

这是一条支撑 AI 方法演进的硬件线索。从运行 AlexNet 的 GTX 580,到 Blackwell Ultra 与 Ironwood,共 16 条记录,追踪十五年来主流 AI 加速器的设备形态、内存、互连和使用方式。

来源: history/sources/data/mainstream_accelerator_eras.csv 引用已对照 NVIDIA 和 Google 一手资料核实。

显示:
2012

NVIDIA GTX 580 3GB

AlexNet 论文中的双 GPU 配置

NVIDIA
加速器内存 3 GB GDDR5 per GPU
扩展互连 PCIe/model split
最大规模 2 GPUs in AlexNet

论文锚点设备

2014

NVIDIA Tesla K40

单卡数据中心 GPU

NVIDIA
峰值算力 5 FP32 TFLOPS; 1.7 FP64 TFLOPS
加速器内存 up to 12 GB GDDR5
扩展互连 PCIe
功耗 235 W
最大规模 single GPU or small PCIe servers

2014-2015 年广泛使用的 HBM 前研究 GPU

2015

NVIDIA Tesla K80

双 GPU 数据中心板卡 / 研究集群 GPU

NVIDIA
加速器内存 24 GB GDDR5 per board / 12 GB per GPU, from repo reading-card statements and common K80 board identity; exact vendor spec not yet locally archived
扩展互连 PCIe multi-GPU servers
最大规模 96 K80 GPUs in GNMT; 60 K80 GPUs in Xception; K80 GPU baseline in TPU v1 datacenter paper

论文验证的 2010 年代中期研究 GPU

2016

NVIDIA Tesla P100

研究集群 GPU

NVIDIA
峰值算力 9.3 FP32 TFLOPS (PCIe); 10.6 FP32 TFLOPS (SXM2); 4.7 FP64 TFLOPS (PCIe); 5.3 FP64 TFLOPS (SXM2); 18.7 FP16 TFLOPS
加速器内存 12-16 GB HBM2
内存带宽 549-732 GB/s
扩展互连 PCIe Gen3 or first-generation NVLink
网络带宽 up to 160 GB/s NVLink generation reference
功耗 250-300 W
最大规模 8-GPU servers and 256-GPU ImageNet training reports

广泛使用的 Pascal/HBM GPU

2017

Google Cloud TPU v2

Cloud TPU 训练加速器 / TPUv2 网格

TPU
峰值算力 11.5 PFLOP/s maximum reported for 512 TPUv2 cores in Mesh TensorFlow local card; chip-level vendor peak not recorded in selected source
加速器内存 8 GB per accelerator in GPipe local card; Google docs list v2 TPU configurations up to v2-512
扩展互连 TPUv2 mesh / high-speed links
最大规模 v2-512 configuration in Google Cloud docs; 512-core TPUv2 mesh in Mesh TensorFlow card

论文验证的 Google Cloud TPU 训练锚点

NVIDIA Tesla V100 SXM2/SXM3

训练 GPU

NVIDIA
峰值算力 15.7 FP32 TFLOPS; 7.8 FP64 TFLOPS; 125 Tensor TFLOPS
加速器内存 16-32 GB HBM2
内存带宽 900 GB/s
扩展互连 NVLink 2
网络带宽 300 GB/s per GPU
功耗 300 W
最大规模 512 GPUs in Megatron-LM report

广泛使用的 Volta Tensor Core GPU

2018

Google Cloud TPU v3

TPU Pod 芯片

TPU
峰值算力 123 BF16 TFLOPS per chip
加速器内存 32 GiB HBM2
内存带宽 900 GB/s
扩展互连 2D torus
网络带宽 pod all-reduce 340 TB/s; pod bisection 6.4 TB/s
功耗 123/220/262 W min/mean/max
最大规模 1024-chip pod

Google TPU Transformer 时代锚点

2020

NVIDIA A100 40GB/80GB

训练 GPU

NVIDIA
峰值算力 19.5 FP32 TFLOPS; 9.7 FP64 TFLOPS; 312 BF16/FP16 Tensor TFLOPS; 624 sparse BF16/FP16 Tensor TFLOPS
加速器内存 40 GB HBM2 or 80 GB HBM2e
内存带宽 1.6 TB/s or over 2 TB/s
扩展互连 NVLink 3
网络带宽 600 GB/s per GPU
功耗 400 W
最大规模 384 GPUs in BLOOM report; larger MLPerf/HGX clusters

广泛使用的 Ampere LLM GPU

Google Cloud TPU v4

TPU Pod 芯片

TPU
峰值算力 275 BF16 or INT8 TFLOPS per chip
加速器内存 32 GiB HBM2
内存带宽 1200 GB/s
扩展互连 3D mesh or twisted torus
网络带宽 pod all-reduce 1.1 PB/s; pod bisection 24 TB/s
功耗 90/170/192 W min/mean/max
最大规模 4096-chip pod

Google TPU Pod 训练锚点

2022

NVIDIA H100 SXM

Hopper 训练 / 推理 GPU

NVIDIA
峰值算力 67 FP32 TFLOPS; 34 FP64 TFLOPS; 1979 sparse BF16/FP16 Tensor TFLOPS; 3958 sparse FP8 Tensor TFLOPS
加速器内存 80 GB HBM3
内存带宽 3.35 TB/s
扩展互连 NVLink 4
网络带宽 900 GB/s per GPU
功耗 up to 700 W
最大规模 HGX/DGX H100 4-8 GPU nodes and larger clusters

广泛使用的 Hopper 前沿 GPU

2023

Google Cloud TPU v5e

云端 TPU 芯片

TPU
峰值算力 197 BF16 TFLOPS; 393 INT8 TOPS per chip
加速器内存 16 GB HBM
内存带宽 800 GiB/s
扩展互连 2D torus; 4 ICI ports
网络带宽 400 GB/s bidirectional ICI per chip
最大规模 256-chip pod

Google Cloud 成本效率型 TPU 锚点

Google Cloud TPU v5p

TPU Pod 芯片

TPU
峰值算力 459 BF16 TFLOPS; 459 FP8 TFLOPS per chip
加速器内存 95 GiB HBM
内存带宽 2575 GiB/s
扩展互连 3D torus
网络带宽 1200 GB/s bidirectional ICI per chip
最大规模 8960-chip pod; largest single slice 6144 chips

Google 前沿 TPU Pod 锚点

2024

NVIDIA H200 SXM

Hopper 大内存 GPU

NVIDIA
峰值算力 67 FP32 TFLOPS; 34 FP64 TFLOPS; 1979 sparse BF16/FP16 Tensor TFLOPS; 3958 sparse FP8 Tensor TFLOPS
加速器内存 141 GB HBM3e
内存带宽 4.8 TB/s
扩展互连 NVLink 4
网络带宽 900 GB/s per GPU
功耗 up to 700 W
最大规模 HGX H200 4-8 GPU nodes

广泛使用的大内存推理 GPU

Google Cloud TPU v6e Trillium

云端 TPU 芯片

TPU
峰值算力 918 BF16 TFLOPS; 918 FP8 TFLOPS; 1836 INT8 TOPS per chip
加速器内存 32 GB HBM
内存带宽 1638 GiB/s
扩展互连 2D torus; 4 ICI ports
网络带宽 800 GB/s bidirectional ICI per chip
最大规模 256-chip pod

Google TPU 训练、微调与服务锚点

2025

NVIDIA HGX B200

8 GPU Blackwell 系统

NVIDIA
峰值算力 600 FP32 TFLOPS system; 72 dense FP4 PFLOPS or 144 sparse FP4 PFLOPS system; 36 sparse FP16/BF16 PFLOPS system
加速器内存 1.4 TB total HBM
扩展互连 NVLink 5 plus NVLink Switch
网络带宽 1.8 TB/s GPU-to-GPU; 14.4 TB/s total NVLink bandwidth
最大规模 8 Blackwell SXM GPUs per HGX baseboard

Blackwell 系统前沿候选

Google Cloud TPU7x Ironwood

TPU Pod 芯片

TPU
峰值算力 2307 BF16 TFLOPS; 4614 FP8 TFLOPS per chip
加速器内存 192 GiB HBM
内存带宽 7380 GiB/s
扩展互连 3D torus
网络带宽 1200 GB/s bidirectional ICI per chip; 200 GB/s per axis
最大规模 9216-chip pod

TPU7x 前沿候选

2026

NVIDIA HGX B300

8 GPU Blackwell Ultra 系统

NVIDIA
峰值算力 600 FP32 TFLOPS system; 144 sparse FP4 PFLOPS or 108 dense FP4 PFLOPS system; 36 sparse FP16/BF16 PFLOPS system
加速器内存 2.1 TB total HBM
扩展互连 NVLink 5 plus NVLink Switch
网络带宽 1.8 TB/s GPU-to-GPU; 14.4 TB/s total NVLink bandwidth
最大规模 8 Blackwell Ultra SXM GPUs per HGX baseboard

Blackwell Ultra 系统前沿候选