构建高效、可解释的VLA基础模型——联合扩散策略和自回归模型

主讲人:文俊杰 | 华东师范大学硕士生

  • 开课时间

    2025.01.06 19:55

  • 课程时长

    101分钟

  • 学习人数

    833人次学习

立即学习
添加助教,加入交流群

立即学习

构建高效、可解释的VLA基础模型——联合扩散策略和自回归模型

传统的机器人模型通常较为脆弱,轻微的干扰因素,如环境光亮度、障碍物或背景的变化,都会导致其性能显著下降,甚至直接失效;而Vision-Language-Action(VLA)模型则表现出更强的泛化能力和鲁棒性。然而,目前的VLA模型,如OpenVLA(7B)和RT-2(55B),由于其模型体量庞大,推理效率较低,训练效率更是受限。因此,本次分享将重点探讨如何构建更加快速且高效的VLA模型,并探索如何结合现有的Vision-Language Model(VLM)基础模型与Diffusion Policy。同时,还将讨论VLA模型的扩展性特征,即模型尺寸对性能的影响。

传统的机器人模型通常较为脆弱,轻微的干扰因素,如环境光亮度、障碍物或背景的变化,都会导致其性能显著下降,甚至直接失效;而Vision-Language-Action(VLA)模型则表现出更强的泛化能力和鲁棒性。然而,目前的VLA模型,如OpenVLA(7B)和RT-2(55B),由于其模型体量庞大,推理效率较低,训练效率更是受限。因此,本次分享将重点探讨如何构建更加快速且高效的VLA模型,并探索如何结合现有的Vision-Language Model(VLM)基础模型与Diffusion Policy。同时,还将讨论VLA模型的扩展性特征,即模型尺寸对性能的影响。

直播课件暂未上传
机器人与自动驾驶 具身智能 进阶
自然语言处理 大模型 基础
自然语言处理 模型压缩与部署 大模型 模型压缩与部署 进阶