Language Models are Unsupervised Multitask Learners - 中文验证版

英文原文卡片：gpt2_2019.md

状态：已翻译。

元数据

Slug： gpt2_2019
年份： 2019
会议： OpenAI technical report
作者： Alec Radford et al.
阅读状态： read complete
计算范式： 超大规模密集 LLM 训练
主要来源： PDF、抽取文本

计算设置

抽取文本未给出确切的训练硬件、加速器类型、集群规模、wall-clock 训练时间或功耗。它感谢"帮助我们提供训练基础设施的 Googlers"，但未给出 GPU、TPU 或特定的系统。根据项目规则，设备语境只能推断为 2018 年末/2019 年初的大型数据中心加速器训练；不应从此来源声称确切的芯片型号。

尽管如此，模型和数据方面的计算规模是明确的。WebText 通过抓取 4500 万个至少有 3 karma 的 Reddit 出站链接的文本子集构建，然后去重并清洗为略多于 800 万个文档和约 40GB 文本。训练了四种 Transformer 语言模型：117M 参数、12 层、d_model 768；345M、24 层、d_model 1024；762M、36 层、d_model 1280；以及 1542M、48 层、d_model 1600。词汇量为 50,257 个 byte-level BPE tokens，上下文大小从 512 增加到 1024 个 tokens，batch size 为 512。

瓶颈

论文将主要瓶颈框定为任务/数据构造而非仅仅是硬件吞吐量。先前的 NLP 系统通常使用单独的监督数据集和任务特定的训练运行。GPT-2 询问一个足够大的语言模型在广泛 web 文本上训练是否可以仅从自然语言上下文中推断任务行为，而无需梯度更新。

计算仍然约束着结果。论文指出所有模型仍然 underfit WebText，这是训练运行尚未穷尽数据/模型容量边界的直接信号。缩放随着模型规模改善了许多任务，实验“持续进入 1B+ 参数区间”。密集 decoder-only Transformers 也带有明确的设备预算：自注意力随上下文长度缩放，MLP 随宽度和深度缩放，batch size 512 意味着大量的加速器内存和数据并行吞吐量。在推理时，1024-token 上下文既是能力也是预算，因为示例、文档、对话历史和提示都必须适配到一次前向传播窗口中。

方法适配

GPT-2 通过移除任务特定接口将 Transformer LM 适配到广泛的多任务使用。它在 WebText 上训练一个自回归 byte-level BPE 语言模型，并以 zero-shot 形式进行评估。任务描述和示例以文本形式表达在上下文中，而不是作为单独的输出头、标签或微调过程。这将许多 NLP 任务转化为 next-token prediction 工作负载。

模型设计也面向规模的稳定性。它大体遵循 GPT，但将层归一化移至每个子块的输入、添加最终层归一化、对于 N 个残差层按 1/sqrt(N) 缩放残差层初始化、将上下文增加到 1024，并使用更大的 batch size 512。Byte-level BPE 使模型能够表示任意字符串而无需庞大的 Unicode 基础词汇，同时避免了原始字节的较差压缩率。数据管线是计算方法的一部分：论文不是在整个 Common Crawl 上训练，而是通过人工策展的 Reddit 链接过滤，以提高每个处理 token 的文本质量。

证据

核心基准证据是 zero-shot 迁移。GPT-2 在 8 个测试的语言建模数据集中的 7 个上改进了 state of the art，而无需在这些数据集上训练或微调。在 LAMBADA 上，1542M 模型的 perplexity 从先前的 99.8 结果改善到 8.63；论文还报告语言模型准确率从 19% 上升到 52.66%，停用词过滤版本达到 63.24%。在 CBT 上，GPT-2 在表格中达到普通名词 93.30% 和命名实体 89.05%。

对于阅读理解，CoQA 上的贪心解码在开发集上达到 55 F1，而未使用监督基线所使用的 127,000+ 人工收集的问答对。对于翻译，GPT-2 从英语到法语表现不佳，为 5 BLEU，但从法语到英语达到 11.5 BLEU，尽管 WebText 过滤步骤刻意移除了非英文网页，仅留下约 10MB 检测到的法语文本。对于 Natural Questions，GPT-2 精确回答 4.1%，是简单问题类型基线的 5.3 倍，其最有信心的 1% 答案达到 63.1% 准确率。

这些结果不均匀，但它们的计算含义是强烈的：缩放一个单一的密集 LM 并通过上下文馈入任务可以获得许多之前需要单独训练作业的行为。

历史影响

GPT-2 是从 Transformer 语言模型到后来的缩放定律和 few-shot LLM 时代的桥梁。其历史贡献不是一个新的加速器 kernel；而是主张广泛的预训练加参数规模将任务多样性转化为数据和计算问题。精确硬件细节的缺失本身值得注意：论文报告模型/数据规模和基准行为，而训练基础设施仍然在该卡片的来源支持事实之外。

局限

确切的硬件、训练时间、集群规模和能耗未被列出。最大的模型仍然 underfit WebText，因此结果并非处于计算饱和的最优点。Zero-shot 性能在许多任务上仍远未达到可用水平，特别是在摘要、翻译和开放域问答方面。1024-token 上下文限制了对上下文任务规格的描述能力，评估引发了污染问题，论文通过重叠分析来处理这一问题，但不能完全消除。

链接

所属计算范式：compute spine
后续链接卡：GPT-3 2020
方法索引：transformer、scaling_laws
Ledger 更新：compute bottlenecks