大语言模型的量化推理加速技术基础

主讲人:陈晓宇 | 沃特镁隆 LLM 推理加速负责人

  • 开课时间

    2024.03.26 19:50

  • 课程时长

    86分钟

  • 学习人数

    2728人次学习

立即学习
添加助教进群领取课件&论文

立即学习

大语言模型的量化推理加速技术基础

大语言模型的推理面临巨大的资源需求和效率的挑战,优化推理速度可以减少硬件成本,还可以提高大模型的应用体验。大语言模型在推理时分为预填充(prefill)阶段和解码(decode)两阶段,在解码阶段大模型的推理都是带宽瓶颈,加速解码阶段的推理速度最有效的方法就是通过低比特的量化,来减少访存的带宽占用,从而加速模型推理。本次分享面向零基础或初学者,首先介绍 LLM 加速和量化的背景知识,包括但不限于 KV Cache、计算访存比、加速方法分类、量化的分类和基础等,再介绍各种量化方法,最后总结不同平台下适用的 LLM 量化方法和实验结论。

大语言模型的推理面临巨大的资源需求和效率的挑战,优化推理速度可以减少硬件成本,还可以提高大模型的应用体验。大语言模型在推理时分为预填充(prefill)阶段和解码(decode)两阶段,在解码阶段大模型的推理都是带宽瓶颈,加速解码阶段的推理速度最有效的方法就是通过低比特的量化,来减少访存的带宽占用,从而加速模型推理。本次分享面向零基础或初学者,首先介绍 LLM 加速和量化的背景知识,包括但不限于 KV Cache、计算访存比、加速方法分类、量化的分类和基础等,再介绍各种量化方法,最后总结不同平台下适用的 LLM 量化方法和实验结论。

模型压缩与部署 模型压缩与部署 基础
模型压缩与部署 模型压缩与部署 基础
模型压缩与部署 模型压缩与部署 进阶