Speculative decoding
英文原文文件:speculative_decoding.md
计算解释
一种推理加速方法:以额外草稿模型的计算开销换取大型目标模型的低时延。
支撑阅读卡
- Fast Inference from Transformers via Speculative Decoding (2023,
efficient_edge_inference)
后续计算范式下过时或退居次要的内容
仅通过已链接的阅读卡追踪,不将本方法页视为独立证据来源。
英文原文文件:speculative_decoding.md
一种推理加速方法:以额外草稿模型的计算开销换取大型目标模型的低时延。
efficient_edge_inference)仅通过已链接的阅读卡追踪,不将本方法页视为独立证据来源。