Distillation

英文原文文件:distillation.md

计算解释

以训练阶段的高算力开销换取部署紧凑性的技术模式:将大型教师模型或模型集成的行为迁移到更轻量的学生模型中。

支撑阅读卡

后续计算范式下过时或退居次要的内容

仅通过已链接的阅读卡追踪,不将本方法页视为独立证据来源。