Parallelism and sharding

英文原文文件:parallelism.md

计算解释

Model、data、pipeline 和 optimizer-state 划分方法,使大模型能够适配分布式 accelerator 集群。

支撑阅读卡

后续计算范式下过时或退居次要的内容

仅通过已链接的阅读卡追踪,不将本方法页视为独立证据来源。