← 返回方法列表

Speculative decoding

英文原文文件：speculative_decoding.md

计算解释

一种推理加速方法：以额外草稿模型的计算开销换取大型目标模型的低时延。

支撑阅读卡

Fast Inference from Transformers via Speculative Decoding (2023, efficient_edge_inference)

后续计算范式下过时或退居次要的内容

仅通过已链接的阅读卡追踪，不将本方法页视为独立证据来源。