Large-Scale Machine Learning with Stochastic Gradient Descent - 中文验证版

英文原始依据卡片：sgd_large_scale_2010.md

状态：已翻译。

元数据

论文未列出具体处理器、服务器或加速器。按项目规则，设备上下文从 2009 年研究时期推断：在商品研究机器或集群上进行基于 CPU 的大规模学习，在 GPU 深度学习成为默认训练路径之前。这是关于时代的推断，而非论文做出的硬件声明。

论文明确框定了计算问题：在前一个十年中，数据规模的增长快于处理器速度，因此统计学习方法受计算时间而非样本可得性的限制。基准示例在结构上也是 CPU 时代的：稀疏文本分类、线性 SVM/logistic 目标函数，以及具有数百万稀疏参数的 CRF 训练，而非密集加速器核。

工作的中心单元是样本级更新。全梯度下降在每次参数更新前对整个数据集计算梯度。SGD 是"大幅简化"：从单个随机选择的样本估计该梯度并立即更新。这将内存和带宽特征从重复的全数据集扫描改变为流式访问与廉价、带噪的更新。

瓶颈是数据充足条件下的实际运行时间。在完整数据集上做精确经验风险最小化可能花费过多计算来降低优化误差，同时处理过少样本。Bottou 将期望风险分解为近似误差、估计误差和优化误差，然后将它们置于最大计算时间和最大训练集大小的约束之下。

该分解是计算结构贡献。在小规模学习中，样本稀缺而计算相对便宜，将优化误差趋近零是有意义的。在大规模学习中，限制是 Tmax，近似优化可以产生更低的期望风险，因为它在允许时间内处理了更多不同的样本。因此，优化器不是仅凭它求解经验目标有多精确来判断；它是在时间预算下达到的风险来判断。

稀疏数据放大了这一论点。RCV1 有数十万文档和 47,152 个稀疏 TF-IDF 特征。每次随机更新只触及活跃特征，使内存流量与数据表示对齐。批处理或二阶求解器在其额外精度发挥作用之前，可能在实际运行时间的竞赛中已经输掉。

SGD 适合这种设置，因为它用精确优化换取对数据的快速遍历：

论文在设备要求上刻意保持克制：它不依赖特殊加速器或密集矩阵乘核。它从流式样本中产生有用进展，几乎无需记住哪些样本已被访问。Bottou 指出，部署的在线系统可以即时处理样本，这既是带宽和内存优势，也是统计优势。

ASGD 和二阶随机变体呈现为在无需返回全批计算的情况下恢复更重方法部分渐近效率的方式。妥协在于随机方法接受梯度噪声，并通过调节增益或平均来控制方差。这同样是后来深度学习继承的计算取舍：将大部分设备预算花在大量带噪但有用的更新上，而非对有限训练集的精确优化。

在 RCV1 CCAT 分类上，训练集包含 781,265 个文档，以 47,152 个稀疏 TF-IDF 特征表示。
对于 RCV1 上的 hinge-loss SVM，表格报告 SVMLight 为 23,642 秒、测试错误率 6.02%，SVMPerf 为 66 秒、6.03%，SGD 为 1.4 秒、6.02%。
对于同一任务上的 log-loss SVM，TRON 根据容差需要 30 或 44 秒，而 SGD 需要 2.3 秒并达到 5.66% 测试错误率。
论文指出，在绘制的 log-loss 任务上，期望风险在超线性 TRON 优化器超越 SGD 之前很久就停止改善了。
在 2008 Pascal Large Scale Learning Challenge 的 ALPHA 任务上，训练集包含 100,000 个样本、500 个变量，ASGD 在一次遍历后几乎达到最优期望风险。
对于 CONLL 2000 组块分析，CRF 有 8,936 个训练句子和 1.68 × 10^6 维参数空间。随机方法在几分钟内达到最佳测试表现；L-BFGS 需要 72 分钟达到等价解。

本文解释了为什么随机一阶优化成为后来深度学习的默认训练引擎。它早于 GPU ImageNet 转折点，但其教训直接延续：当数据和模型增长时，合适的优化器往往是把设备预算花在有用的带噪更新上，而非精确批优化的那个。

在计算主线中，Bottou 提供了统计-计算论证，后来的硬件使其更加显著。AlexNet 将设备改为 GPU、将原语改为密集卷积，但它保留了 minibatch SGD。Transformer 改变了模型类别和 token 规模，但仍然通过随机更新分配 FLOPs。