Mixtral of Experts
Mixtral of Experts - 中文验证版
英文原文卡片:mixtral_2024.md
状态:已翻译。
元数据
- 阅读状态:已读毕
- 年份:2024
- 计算范式:稀疏化与内存高效扩展 (
sparse_memory_efficient_scaling) - PDF:2024-mixtral_2024.pdf
- 抽取文本:2024-mixtral_2024.txt
- PDF URL:https://arxiv.org/pdf/2401.04088.pdf
- OpenAlex:
- 引用计数来源/日期:
- 引用计数:
- 阅读卡创建日期:2026-06-15
计算设置
论文未列出训练加速器型号、设备数量、墙钟时间、token 数量或训练 FLOPs。它感谢了 CoreWeave 和 Scaleway 在模型训练期间的技术支持,以及 NVIDIA 在集成 TensorRT-LLM 和 Triton 方面的支持,但这些致谢并未提供具体的硬件规格。根据项目规则,训练环境推断为 2023-2024 年大规模 GPU 集群,而确切拓扑结构仍无依据。
模型架构和推理服务上下文是明确的。Mixtral 8x7B 是一个仅解码器的稀疏混合专家模型,具有 32 层、隐藏维度 4096、前馈隐藏维度 14336、32 个注意力头、8 个键/值头、词表大小 32000、上下文长度 32768。每个 MoE 前馈块有 8 个专家并使用 top-2 路由。论文指出每个 token 可访问 47B 参数,但在推理期间仅使用 13B 激活参数。论文还说明团队向 vLLM 提交了集成 MegaBlocks CUDA 内核的更改以实现高效推理,并讨论了跨多 GPU 的专家并行。
瓶颈
瓶颈在于 70B 级别的推理服务成本。Llama 2 70B 等稠密模型对每个 token 使用全部前馈参数,因此推理成本随全部激活参数数量线性增长。Mixtral 试图在匹配或超越该质量的同时,每个 token 仅评估一部分专家。论文明确区分了稀疏参数数量(决定存储和内存)与激活参数数量(直接正比于推理计算成本)。
稀疏 MoE 并未消除硬件约束,而是转移了约束的所在。推理服务的内存占用量与 47B 稀疏参数量成正比,而非 13B 激活参数量。路由还带来开销和负载均衡压力。论文指出 SMoE 层在每设备运行多个专家时会增加路由开销和内存负载,并且更适合批处理工作负载。在分布式专家并行中,分配给某个专家的 token 必须路由到持有该专家的 GPU 再返回,这产生了稠密模型不会以同样形式面临的互联和负载均衡问题。
因此,内存边界应以存储参数加上 KV 缓存为准,计算边界应以激活参数为准。在 BF16 下,47B 存储参数约 94 GB(不含缓存或工作空间),即使每个 token 仅激活约 13B 参数。以 32 层、8 个 KV 头、头维度 128 和 32K 上下文计算,批次为 1 的 KV 缓存约 4.3 GB;批次为 8 时升至约 34 GB。Mixtral 相对于 47B 稠密模型节省了每 token FLOPs,但仍需为整个专家池和缓存提供内存与互联带宽。
方法适配
Mixtral 将 Transformer 前馈块适配为一个稀疏路由问题。在每一层、对每一个 token,路由器从八个专家中选择两个,应用这些专家的前馈网络,并根据路由器权重加和其输出。论文使用路由器 logits 上的 top-K softmax;K 固定为 2,模型可以通过增加专家数量来提升总参数容量,而不必让每个 token 为所有专家付出代价。
该方法通过多种方式适配内存和带宽约束。分组查询注意力在架构表中体现为 32 个注意力头但仅有 8 个键/值头,降低了键/值缓存压力。32K 上下文长度使 KV 缓存大小和注意力内存对推理服务至关重要,而 MoE 层将大部分参数增长转移到前馈专家中。MegaBlocks 被引用,是因为 MoE 推理在不同专家接收可变数量 token 时需要高效的稀疏矩阵乘法。专家并行将专家分片到不同 GPU,将 token 状态路由到正确的设备,并依赖于均衡的工作负载。
证据
主要证据是与 Llama 2 70B 的激活计算对比。表 2 报告 Mixtral 8x7B 以 13B 激活参数对比 Llama 2 70B 的 70B 激活参数,并指出 Mixtral 在几乎所有常用基准测试上匹敌或超越 Llama 2 70B,同时使用的激活参数少 5 倍。报告分数包括 MMLU 70.6 对 69.9、MBPP 60.7 对 49.8、Math 28.4 对 13.8、GSM8K 74.4 对 69.6、HumanEval 40.2 对 29.3。
论文还在表 3 中将 Mixtral 与 GPT-3.5 和 Llama 2 70B 进行对比,报告 Mixtral 在大多数列出的指标上匹敌或超越它们,并指出 Mixtral 8x7B Instruct 在人类评估基准上优于 Claude-2.1、Gemini Pro、GPT-3.5 Turbo 和 Llama 2 70B chat。长上下文证据与计算相关,因为它对缓存和注意力行为构成压力:模型被报告能够在其 32K 上下文中检索通行密钥,无论序列长度和通行密钥位置如何。
历史影响
Mixtral 通过将 MoE 缩放打包为一个广泛可用的模型,使稀疏开放权重 LLM 成为主流。早期的 MoE 系统如 GShard、Switch 和 GLaM 确立了训练逻辑,但 Mixtral 使推理服务的权衡对实践者变得可见:一个模型可以存储 47B 参数,每个 token 激活 13B,并与稠密的 70B 级基线竞争。其开放权重和 vLLM/MegaBlocks 集成也将架构与部署连接起来,而非让 MoE 停留在训练论文的想法层面。
在计算主线的框架下,Mixtral 是一个晚期稀疏缩放里程碑,因为它将激活参数数量、总内存占用、上下文长度、批处理和专家路由整合为一个实际的推理服务问题。它改变了硬件预算中哪一部分是稀缺的。
局限
来源未披露足够信息以精确分析训练计算。没有设备数量、训练 token 预算、优化器设置、批次大小或墙钟时间,因此训练效率的主张必须限于论文报告的架构和基准对比。最强的设备特定声明涉及推理服务软件支持,而非预训练硬件。
推理服务方面的局限仍然显著。所有专家必须在内存中可用,因此 13B 激活参数并不意味着 13B 存储。路由增加开销,可变的专家负载可能产生瓶颈,专家并行依赖于互联带宽和实现质量。论文自身指出 SMoE 利用率在批处理工作负载下更好,这意味着低批次交互式推理可能无法实现激活参数的全部优势。Mixtral 展示了一个强大的成本-质量平衡点,但并非稠密推理的无代价替代方案。
链接
- 计算范式:
history/compute_regimes/sparse_memory_efficient_scaling/README.md - 来源 PDF 和抽取文本见上方元数据。
- 队列状态:
read_complete。 - 方法索引:moe、transformer
- Ledger 更新:compute bottlenecks