-
开课时间
2025.01.06 19:55
-
课程时长
101分钟
-
学习人数
833人次学习
添加助教,加入交流群
- 课程介绍
- 精华文稿
- 课件领取
- 相关课程
传统的机器人模型通常较为脆弱,轻微的干扰因素,如环境光亮度、障碍物或背景的变化,都会导致其性能显著下降,甚至直接失效;而Vision-Language-Action(VLA)模型则表现出更强的泛化能力和鲁棒性。然而,目前的VLA模型,如OpenVLA(7B)和RT-2(55B),由于其模型体量庞大,推理效率较低,训练效率更是受限。因此,本次分享将重点探讨如何构建更加快速且高效的VLA模型,并探索如何结合现有的Vision-Language Model(VLM)基础模型与Diffusion Policy。同时,还将讨论VLA模型的扩展性特征,即模型尺寸对性能的影响。