-
开课时间
2024.03.26 19:50
-
课程时长
86分钟
-
学习人数
2728人次学习
添加助教进群领取课件&论文
- 课程介绍
- 精华文稿
- 课件领取
- 相关课程
大语言模型的推理面临巨大的资源需求和效率的挑战,优化推理速度可以减少硬件成本,还可以提高大模型的应用体验。大语言模型在推理时分为预填充(prefill)阶段和解码(decode)两阶段,在解码阶段大模型的推理都是带宽瓶颈,加速解码阶段的推理速度最有效的方法就是通过低比特的量化,来减少访存的带宽占用,从而加速模型推理。本次分享面向零基础或初学者,首先介绍 LLM 加速和量化的背景知识,包括但不限于 KV Cache、计算访存比、加速方法分类、量化的分类和基础等,再介绍各种量化方法,最后总结不同平台下适用的 LLM 量化方法和实验结论。