Kimi K2: Open Agentic Intelligence

下载 PDF

Kimi K2: Open Agentic Intelligence - Chinese Validation Copy

Status: translated (GLM-assisted validation copy).

Canonical English card: kimi_k2_2025.md

Rules:

  • This file is a GLM-assisted validation copy.
  • Do not add claims that are absent from the English card.
  • Record any translation dispute here and resolve it in English first.
  • 技术术语保留英文:Kimi K2, MoE, H800, MuonClip, NVLink, NVSwitch, RoCE, Multi-head Latent Attention (MLA), ZeRO-1, BF16, FP32, FP8, FP8-E4M3, WSD, YaRN, Muon, QK-Clip, SwiGLU, MCP, RL, PTX, agentic。

Metadata(元数据)

Compute Setup(计算设置)

论文明确说明了训练硬件。Kimi K2 在 NVIDIA H800 GPU 集群上训练。每个节点配备 2 TB RAM 和 8 块通过 NVLink 和 NVSwitch 互联的 H800 GPU;节点间通过 8 × 400 Gbps RoCE 链路通信。基座模型是一个 1.04T 参数的 MoE Transformer,拥有 32.6B 激活参数、61 层、384 个路由专家、每 token 激活 8 个专家、一个共享专家、Multi-head Latent Attention 和 64 个注意力头。

训练系统使用 16 路流水线并行(含虚拟阶段)、16 路专家并行和 ZeRO-1 数据并行。BF16 参数和 FP32 梯度缓冲区在 256 GPU 的模型并行组中约需 6 TB,每 GPU 约 30 GB 模型状态。预训练在 4096 上下文下处理 15.5T token,使用 MuonClip、WSD 学习率调度、权重衰减 0.1 和 67M token 的全局批次。随后在 4k 序列长度下添加 400B 退火 token,再在 32k 下添加 60B,并使用 YaRN 将上下文扩展到 128k。

Bottleneck(瓶颈)

Kimi K2 的架构围绕三个瓶颈展开:稀疏万亿参数训练、优化器稳定性和 agentic 后训练吞吐量。模型需要高总容量,但无法承受 1T 参数的密集激活。MoE 稀疏性将每 token 计算保持在约 32B 激活模型的水平,但在 H800 集群上产生了专家并行通信和负载均衡问题。

优化器瓶颈特定于 Muon 的扩展。论文报告称,普通 Muon 在中等规模下可能触发注意力 logit 爆炸;在一个 9B 激活、53B 总参数的 MoE 运行中,最大 logit 迅速超过 1000,导致损失尖峰甚至发散的风险。Query-Key Normalization 不适用于 MLA,因为在推理过程中 key 矩阵并未完全物化。因此,15.5T token 的运行需要一种不抵消 Muon token 效率优势的稳定性机制。

后训练的瓶颈在于 agentic 交互。工具使用和软件工程数据在自然文本中稀少,且从真实环境生成代价高昂。长周期任务的 RL rollout 可能导致 GPU 等待 VM、代码解释器、沙箱或环境反馈。在 1T 参数规模下,训练和推理引擎之间的权重更新同样代价高昂。

Method Adaptation(方法适配)

K2 通过超稀疏 MoE 和 MLA 使架构适配 H800 的内存和互联限制。稀疏性扩展律实验表明,在固定激活参数和 FLOPs 下,增加总专家数会降低训练和验证损失。K2 采用稀疏度 48(从 384 个专家中激活 8 个)。它将注意力头数从 DeepSeek-V3 的 128 削减至 64,因为在 128k 序列长度下,将头数从 64 翻倍至 128 会使推理 FLOPs 增加 83%,而验证损失仅获得适度增益。

MuonClip 使优化器适配大规模稀疏训练。其技术价值在于保持 Muon 的 token 高效更新,同时添加针对注意力 logit 爆炸的有针对性的护栏。QK-Clip 监控每个头的最大注意力 logit,如果该值超过阈值 τ,则在优化器更新后重新缩放 query/key 投影权重。对于 MLA,它仅裁剪非共享的头部组件,保留共享的 rotary key 组件不变;这是一种对权重增长的事后控制。

系统栈通过重计算、FP8 激活存储和 CPU offload 来缓解内存压力。LayerNorm、SwiGLU、MLA 上投影和 MoE 下投影被重计算。MoE 上投影和 SwiGLU 的输入以 FP8-E4M3 tile 加 FP32 scale 的形式存储,其余激活流通过 copy engine 传输到 CPU RAM,与计算和通信重叠执行。

后训练通过合成工具、agent、任务、评分标准和轨迹,使模型适配 agentic 工作负载。该方法的价值在于将工具使用转化为生成、过滤的交互,而非仅依赖稀缺的人类轨迹。工具仓库包含超过 3000 个真实 MCP 工具和超过 20,000 个合成工具。RL 将可验证奖励与自我批评评分奖励、预算控制、PTX 损失和温度衰减相结合。

Evidence(证据)

核心训练证据是大规模稳定性:K2 在 15.5T token 上预训练,未出现任何损失尖峰。在使用 MuonClip 和 τ = 100 的完整运行中,最大 logit 早期被限制,随后衰减到稳定范围;损失曲线全程平滑。附录证据表明 QK-Clip 是暂时活跃的:在前 70,000 步中,12.7% 的注意力头至少触发一次,之后所有头降至 100 以下,裁剪变为非活跃。

架构证据支持稀疏设计。论文报告称,稀疏度 48 可以以比稀疏度 8、16 和 32 分别少 1.69 倍、1.39 倍和 1.15 倍的 FLOPs 达到验证损失 1.5。K2 的总参数量多于 DeepSeek-V3,1.04T 对比 671B,但激活参数量更少,32.6B 对比 37B。

能力证据聚焦于 non-thinking 和 agentic 场景。Kimi-K2-Instruct 报告 Tau2-Bench 66.1、ACEBench English 76.5、SWE-bench Verified 65.8、SWE-bench Multilingual 47.3、LiveCodeBench v6 53.7、OJBench 27.1、AIME 2025 49.5、GPQA-Diamond 75.1。SWE-bench Verified 多次尝试可达 71.6%。长上下文评估使用 128k 上下文;SWE-bench Verified Agentless 使用 16,384 token 输出限制。

Historical Effect(历史影响)

Kimi K2 是开放权重 agentic MoE 扩展的历史标志。其技术贡献在于组合配方:超稀疏 MoE 容量、MuonClip 稳定性、合成工具使用数据,以及混合可验证奖励与自我批评的 RL。计算教训是,agentic 智能需要经济的 1T 参数架构、在 15.5T token 上稳定的优化器,以及在环境和工具运行时保持 GPU 有效利用的基础设施。

它还将 DeepSeek-V2/V3 系列的内存感知 MoE 设计延伸到后训练密集型范式。MLA 降低缓存压力,高稀疏度降低激活 FLOPs,更少的注意力头保护 128k 推理,MuonClip 保护训练稳定性。结果是,该开放模型的最强声称是软件工程和工具使用分数,而不仅是语言模型困惑度。

Limits(局限)

论文明确说明了硬件类别,但未说明完整集群规模、总 GPU 时数、功率或成本。复现需要大规模 H800 集群、自定义并行策略、激活 offload、checkpoint 广播、Kubernetes 支持的沙箱,以及大规模合成/真实 agentic 环境。

基准评估框架也有边界。报告强调 non-thinking 评估;未声称扩展推理模式。部分数据点因评估成本过高而省略。局限性部分指出,对于模糊任务或不明确的工具定义,模型可能生成过多 token 并截断输出,且一次性完整项目提示的效果弱于在 agentic 框架内使用 K2。因此,agentic 性能依赖于脚手架、工具定义和 rollout 预算,而非仅依赖基座 checkpoint。

Links(链接)