课程价格 :
¥1599.00
剩余名额
18
-
学习时长
9周/建议每周至少6小时
-
答疑服务
专属微信答疑群/讲师助教均参与
-
作业批改
每章节设计作业/助教及时批改评优
-
课程有效期
一年/告别拖延,温故知新
- 第1章: TensorRT介绍
- 第1节: TensorRT是什么
- 第2节: TensorRT整体工作流程与优化策略
- 第3节: TensorRT的组成与基本使用流程
- 第4节: TensorRT DEMO:SampleMNIST
- 第5节: TensorRT进阶
- 第6节: DEMO演示
- 第2章: TensorRT转换ONNX模型
- 第1节: ONNX 介绍
- 第2节: 背景知识
- 第3节: TRT转换模型的主要痛点
- 第4节: onnx-parser & onnx-graphsurgen
- 第5节: 实践
- 第6节: polygraphy
- 第3章: 模型框架与模型转换方式介绍
- 第1节: 课程介绍和模型介绍
- 第2节: 转换方式对比
- 第4章: 环境搭建
- 第1节: 加速节点介绍
- 第2节: 环境和目录结构介绍
- 第3节: 测试数据介绍
- 第4节: C++ infer与评价标准
- 第5节: 构建方式介绍
- 第6节: 开始节点实战
- 第7节: 作业
- 第5章: 第一阶段优化方法:性价比最高的推理加速优化
- 第1节: 加速节点概况
- 第2节: FP16优化
- 第3节: 合并LayerNorm算子
- 第4节: 作业
- 第6章: 第二阶段优化方法:CUDA Graph & 输入优化
- 第1节: 输入优化方法:减少数据传输次数&提高传输速度
- 第2节: 输入优化方法:batching与overlap
- 第3节: 补充知识:CUDA stream
- 第4节: 什么是CUDA Graph以及为什么要做
- 第5节: 如何做CUDA Graph
- 第6节: CUDA Graph缺点及解决方案
- 第7节: 实战:输入优化与 CUDA Graph
- 第8节: 作业
- 第7章: 第三阶段优化方法:大规模算子合并加速
- 第1节: 为什么要做大规模算子合并
- 第2节: 模型结构详解
- 第3节: 加速策略1:合并Encoder模块以及Input Embedding模块
- 第4节: 加速策略2:加速Attention模块
- 第5节: 加速策略3:去除冗余计算等策略
- 第8章: 终点:结合开源方案
- 第1节: 终点:结合开源方案
- 第2节: 基础版本开源代码
- 第3节: 进阶fused版本
- 第9章: 进一步深度加速的方法探讨
- 第1节: INT8 量化
- 第2节: VarLen减少零填充带来的GPU计算开销
- 第3节: 稀疏剪枝等模型优化算法