Qwen3 Technical Report

下载 PDF

Qwen3 Technical Report - 中文验证版

英文原文卡片:qwen3_2025.md

状态:已翻译。 注:前沿临时卡片(Frontier provisional)。

元数据

计算设置

Qwen3 报告未说明训练硬件、加速器数量、内存大小或互联方式。按项目规则,硬件设置因此从发表前约一年的前沿加速器背景推断:H100/H200 级 GPU 集群或可比的 TPU v5p/v6e pod 规模系统,以高带宽 HBM 和 scale-up fabric 作为实际约束。本地加速器时代图谱将 2024 H200 SXM 列为内存扩展的 Hopper 设备,配备 141 GB HBM3e 和 4.8 TB/s 带宽,将 2024 TPU v6e 列为 TPU 训练/推理芯片,配备 32 GB HBM 和 256 芯片 pod。此为推断,非论文所述的硬件。

论文给出的计算形态是模型和数据规模。Qwen3 包括从 0.6B 到 32B 的六个 dense 模型和两个 MoE 模型:Qwen3-30B-A3B 和 Qwen3-235B-A22B。旗舰模型总参数量 235B,但每个 token 仅激活 22B。预训练使用 36T token,覆盖 119 种语言和方言。三个阶段分别为:约 30T token、序列长度 4096;约 5T 高质量 STEM/编程/推理 token、序列长度 4096;以及数千亿长上下文 token、序列长度 32768。大多数发布模型宣称推理时 128K 上下文,使用 YaRN 和 Dual Chunk Attention 进行扩展。

瓶颈

瓶颈不再仅仅是 dense 预训练 FLOPs。Qwen3 必须在一次发布中应对三重压力:巨大的多语言 token 规模、以可容忍的单 token 成本实现稀疏 MoE 容量,以及可在不部署独立模型的情况下调高或调低的推理阶段计算能力。235B MoE 模型将每个 token 的激活参数降至 22B,但在 128 个 expert 中路由 8 个活跃 expert 仍会产生负载均衡、通信和 serving 内存问题。长上下文增加了 KV-cache 和 attention 压力,尤其是当同一模型必须同时支持快速非思考响应和长思考轨迹时。

后训练同样成为计算瓶颈。报告明确将 thinking token 视为推理资源:用户可分配 thinking budget,以延迟换取性能。报告还指出,通过完整的四阶段推理流水线构建每个较小模型将非常昂贵,因此使用 strong-to-weak distillation 来减少后训练 GPU 小时数。

方法适配

Qwen3 通过组合 dense 模型的稳定性机制、稀疏激活和推理预算控制,将 Transformer 栈适配到该加速器环境。Dense 模型使用 GQA、SwiGLU、RoPE、RMSNorm、移除 QKV bias 以及 QK-Norm;其技术价值在于大规模下更稳定的 attention 和可训练性,而不仅仅是降低设备压力。MoE 模型将容量分段为 128 个 expert,每个 token 激活 8 个,移除了 Qwen2.5-MoE 的 shared expert,并加入全局批次负载均衡以促进 expert 专业化。这也是一种计算适配:总参数内存扩大,而每个 token 的活跃矩阵乘法仍接近较小的 dense 模型。

训练调度同样受设备形态影响。Qwen3 将大部分 token 用于序列长度 4096 的训练,最后保留一个长上下文阶段用于 32768 token 的训练数据。RoPE 基频从 10000 提升至 1000000,然后 YaRN 和 DCA 提供四倍推理扩展。这避免了在整个 36T token 运行中以最大宣称上下文长度进行训练。

后训练将推理转化为可控的服务模式和技术行为模型。旗舰模型使用 long-CoT 冷启动、推理 RL、thinking-mode 融合和通用 RL。/think/no think 标志教会同一个模型表示审慎和直接两种响应风格,而 thinking budget 使部分推理可用。较小模型使用 strong-to-weak distillation:off-policy 响应蒸馏教授两种模式,on-policy logit 蒸馏从 Qwen3-32B 或 Qwen3-235B-A22B 传递教师分布。

证据

报告的成本证据大多是相对的,但具体。对于基座模型,它指出 Qwen3 MoE 基座模型可以仅用 1/5 的激活参数匹配 Qwen3 dense 基座模型,且 Qwen3-235B-A22B-Base 在 15 个基准中的 14 个上优于 DeepSeek-V3-Base,总参数约 1/3,激活参数 2/3。报告还指出 Qwen3-235B-A22B-Base 在所有列出的基座基准上优于 Qwen2.5-72B-Base,且激活参数不到 1/3。

对于后训练,Qwen3-235B-A22B 在 AIME'24 上达到 85.7,AIME'25 上 81.5,LiveCodeBench v5 上 70.7,CodeForces 上 2056,BFCL v3 上 70.8。在推理 RL 阶段,Qwen3-235B-A22B 的 AIME'24 从 70.1 升至 85.1,经历 170 个 RL 步。蒸馏对比是最清晰的计算结果:从相同的 off-policy 蒸馏 8B checkpoint 出发,强化学习使用 17920 GPU 小时,在 AIME'24 上达到 67.6、LiveCodeBench v5 上 52.9;而 on-policy 蒸馏使用 1800 GPU 小时,达到 74.4 和 60.3。论文将此概括为约 1/10 的 GPU 小时数,且性能更优。

长上下文证据好坏参半但有用。在 RULER 上,非思考模式 Qwen3-235B-A22B 平均 95.0,128K 时得分 90.6;而 thinking mode 平均 92.2,128K 时得分 86.0。作者认为 thinking 内容可能干扰检索式长上下文任务。

历史影响

Qwen3 是 2025 年开放 LLM 工程的一个例子,此时该领域已将原始预训练、后训练和推理阶段计算分离为不同的预算。其历史角色并非单一的新原语,而是将若干计算适配和技术能力打包进一个模型系列。MoE 增加了专业化容量,长上下文分段扩展了可用上下文,thinking budget 使推理深度成为一个显式的行为旋钮。

因此,本卡片主要归属于超大规模 LLM 训练,同时与稀疏缩放和推理阶段计算有重叠。它展示了一个前沿风格的开放模型系列如何试图保持广泛的基准质量,同时使部署选择显式化:dense 或 MoE 规模、thinking 或 non-thinking 模式,以及当完整后训练过于昂贵时使用较小的蒸馏学生模型。

局限

对本历史而言,最大的局限是硬件不透明。原文未提供设备数量、加速器型号、互连、优化器分片设置、训练 wall time 或实际利用率。任何硬件讨论必须视为从本仓库加速器时代图谱的推断。

报告对 36T token 运行或 MoE serving 也几乎没有给出绝对成本核算。它声称推理和训练每万亿 token 更便宜,但未暴露足够数据来计算这些节省。长上下文推理并非一律有益:附录指出 thinking mode 在 RULER 上表现下降,可能因为检索任务不需要额外的推理 token。未来工作明确指向更多预训练规模、压缩、极长上下文以及为 agent RL 投入更多计算,因此该模型仍受计算限制,而非一个完成的效率解决方案。

链接