SGD and stochastic optimizers

英文原文文件:sgd.md

计算解释

一种优化范式:以精确梯度为代价换取可扩展的噪声更新;当数据集与模型规模超出全批量训练能力时,该方法成为核心手段。

支撑阅读卡

后续计算范式下过时或退居次要的内容

仅通过已链接的阅读卡追踪,不将本方法页视为独立证据来源。