Gemini: A Family of Highly Capable Multimodal Models
Gemini: A Family of Highly Capable Multimodal Models - 中文验证版
英文原始依据卡片:gemini_2023.md
状态:已翻译。
元数据
- 阅读状态: read complete
- 年份: 2023
- 计算范式: 超大规模密集 LLM 训练 (
hyperscale_dense_llm_training) - PDF: 2023-gemini_2023.pdf
- 抽取文本: 2023-gemini_2023.txt
- PDF URL: https://arxiv.org/pdf/2312.11805.pdf
- OpenAlex:
- 引用计数来源/日期:
- 引用计数:
- 阅读卡创建日期: 2026-06-15
计算设置
报告明确以 TPUv5e 和 TPUv4 基础设施为核心。它指出 Gemini 模型根据模型大小和配置使用 TPUv5e 和 TPUv4 进行训练,而 Gemini Ultra 使用了跨多个数据中心的大型 Google 自有 TPUv4 加速器集群。硬件部分描述了 TPUv4 SuperPod,由 4096 个芯片组成,每个连接到专用光开关,可以在约 10 秒内将 4x4x4 芯片立方体重新配置为任意 3D 环面拓扑。Ultra 利用 Google 的集群内和集群间网络将多个数据中心的 SuperPod 组合在一起。
软件栈是 JAX、Pathways、GSPMD、XLA 和一个用于静态集合调度的 MegaScale XLA pass。报告指出在 SuperPod 内使用模型并行,跨 SuperPod 使用数据并行。在此规模下,传统的持久存储检查点无法维持较高的 goodput,因此 Gemini 使用冗余的内存模型状态副本,并在故障后从完好副本快速恢复。最大规模训练任务的 goodput 从 85% 提升到 97%。
重要的遗漏仍然存在。Gemini Ultra 模型卡说明计算需求未报告,模型统计数据未报告。因此,Ultra 的参数数量、确切训练 tokens、总 FLOPs 和完整芯片数量在本地来源中不可得。
瓶颈
在 Gemini Ultra 的规模上,瓶颈既是数据中心也是模型。增加加速器会降低整个训练任务的平均故障间隔时间。同步训练必须保持跨 SuperPod 和数据中心的模型并行和数据并行集合通信持续运转。持久存储检查点对于高 goodput 来说太慢。静默数据损坏(SDC)在单设备上罕见,但在集群规模上变得频繁,报告预计 SDC 事件每隔一到两周就会影响训练。
架构也面临推理和内存约束。Gemini 是一个 decoder-only Transformer 家族,训练支持 32K 上下文,使用高效注意力机制如 multi-query attention。它原生支持跨文本、图像、音频和视频的多模态。该家族按计算目标划分:Ultra 用于最高能力,Pro 用于成本和延迟,Nano 用于设备端内存受限部署。
方法适配
Gemini 的方法选择同时反映了训练和推理硬件。SuperPod 内的模型并行将紧密耦合的分片保留在高速 TPU 互连上,而跨 SuperPod 的数据并行使用数据中心网络进行较低容量的同步。GSPMD 对训练步骤进行分片,编译器调度集合通信以与计算重叠并减少步长时间方差。
可靠性机制成为算法表面的一部分。冗余内存副本在许多故障中替代了缓慢的检查点恢复。确定性重放有助于在 SDC 后隔离错误计算。主动 SDC 扫描器和热备件移除可疑硬件。报告将这种确定性基础设施视为稳定 Ultra 训练的关键。
在模型层面,Gemini 从一开始就以多模态方式训练,而非仅在文本预训练后附加视觉/音频组件。它支持 32K 上下文并使用高效注意力机制。Nano 有两个版本,1.8B 和 3.25B 参数,通过从更大的 Gemini 模型中蒸馏训练,使家族同时覆盖 TPU 集群训练和设备端推理。
证据
系统证据是 goodput 结果:对于最大规模训练任务,与之前的 PaLM/PaLM-2 式方法相比,冗余内存恢复将整体 goodput 从 85% 提升到 97%。报告还将 SDC 处理描述为观察到的训练需求而非假设性风险。
基准测试证据显示了为什么要构建这种基础设施。Gemini Ultra 据报告在报告中 32 个基准测试的 30 个中取得了最优结果,包括所有 20 个被检查的多模态基准测试。在 MMLU 上,Ultra 达到 90.04%,超过人类专家基准 89.8% 和先前报告的最优水平 86.4%。MMLU 结果与推理阶段计算相关联:报告使用不确定性路由的链式思考,支持 k 采样如 8 或 32,当置信度超过验证调参阈值时选择多数答案,否则回退到贪心最大似然选择。在附录中,Ultra 从贪心采样的 84.0% 提升到使用不确定性路由链式思维(32 样本)的 90.0%,而单独的 32 样本链式思维仅达到 85.0%。
其他报告的证据包括 GSM8K 在链式思维和自一致性下达到 94.4%,MATH 在 4-shot prompting 下达到 53.2%,2022-2023 AMC 题目达到 32%,HumanEval 74.4%,Natural2Code 74.9%,MMMU 62.4%。训练规模计算和推理时样本路由都是最终能力故事的一部分。
历史影响
Gemini 是基础模型成为数据中心规模分布式系统的清晰例证。它对计算结构的历史重要性不仅在于它使用了 TPU,而在于训练可靠性、光拓扑、编译器调度、确定性重放和热备件呈现为模型得以存在所必需的要素。方法与集群不可分割。
它还将超大规模密集多模态训练与推理阶段计算联系起来。MMLU 结果依赖于不确定性路由的多样本推理,而 Ultra、Pro 和 Nano 覆盖不同的延迟和内存预算。
局限
报告省略了 Pro 和 Ultra 的参数数量、确切训练 tokens、总训练 FLOPs 和精确的计算需求。公共卡片因此应避免将"大规模集群"转化为超出所述 SuperPod 大小和多数据中心描述的数字芯片总数。基准测试解释也有注意事项。报告讨论了污染风险并在泄漏分析后选择不报告某些结果;它还指出小规模额外任务特定微调可以改变 HellaSwag 验证结果,显示对数据集组成的敏感性。
最后,Gemini 是一个面向产品的模型家族,具有后训练、安全和部署约束,无法仅从论文中完全复现。来源支持强有力的系统计算故事,但不支持模型大小或训练成本的完整公开核算。
链接
- 计算范式:
history/compute_regimes/hyperscale_dense_llm_training/README.md - 来源 PDF 和抽取文本见上方元数据。
- Queue 状态:
read_complete。 - 方法索引:transformer、parallelism、scaling_laws
- 对照更新:compute bottlenecks