高效推理与边缘部署

部署约束成为主要瓶颈:延迟、内存占用、量化、适配器大小和 KV 缓存压力。

10 篇论文 第 9 个,共 10 个计算范式

Efficient and edge inference

英文原文文件:README.md

设备/设置

部署受限的 CPU、移动 SoC、单 GPU,以及内存受限的微调/服务环境。

瓶颈

延迟、模型大小、带宽、VRAM/RAM 占用和适配成本比最大训练吞吐更重要。

适配的方法

知识蒸馏、SqueezeNet/MobileNet、DistilBERT、LoRA、QLoRA、GPTQ 和 speculative decoding 使模型更小、适配成本更低,或降低服务成本。

变得过时或不再中心的方法

当部署内存或延迟固定时,全模型微调和无约束密集服务的重要性随之下降。

代表性论文

排名 年份 论文 优先级 状态
103 2015 Distilling the Knowledge in a Neural Network 4 downloaded / read_complete
104 2017 MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 4 downloaded / read_complete
105 2021 LoRA: Low-Rank Adaptation of Large Language Models 4 downloaded / read_complete
106 2023 QLoRA: Efficient Finetuning of Quantized LLMs 4 downloaded / read_complete
107 2023 Fast Inference from Transformers via Speculative Decoding 4 downloaded / read_complete
108 2016 SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size 3 downloaded / read_complete
109 2019 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter 3 downloaded / read_complete
110 2022 GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers 3 downloaded / read_complete
125 2025 Gemma 3 Technical Report 4 downloaded / read_complete
126 2025 BitNet b1.58 2B4T Technical Report 4 downloaded / read_complete

开放问题

  • 串联边缘/移动效率方法与现代 LLM 微调及解码效率方向。

相关论文 10