多模态大模型时代的智能体研究:从可供性,功能理解到运动输出

主讲人:黄思渊 | 上海交通大学-上海人工智能实验室联培博士生

  • 开课时间

    2024.10.15 19:55

  • 课程时长

    81分钟

  • 学习人数

    1855人次学习

立即学习
添加助教,领取课件

立即学习

多模态大模型时代的智能体研究:从可供性,功能理解到运动输出

随着多模态大模型的迅速发展,越来越多的研究探索其在机器人领域(尤其是具身任务中)的应用,以增强机器人的高层推理和底层运动能力。然而,具身任务与传统视觉任务在关注点上存在显著差异,且现有的具身数据不足以支持从头训练多模态大模型。为此,本报告将从可供性和功能理解的角度出发,探讨如何以最小成本构建具身任务与视觉任务之间的桥梁。这一研究旨在激活现有通用多模态大模型在具身任务中的潜力,推动机器人技术的进一步发展,使其在复杂环境中表现得更灵活和智能。

随着多模态大模型的迅速发展,越来越多的研究探索其在机器人领域(尤其是具身任务中)的应用,以增强机器人的高层推理和底层运动能力。然而,具身任务与传统视觉任务在关注点上存在显著差异,且现有的具身数据不足以支持从头训练多模态大模型。为此,本报告将从可供性和功能理解的角度出发,探讨如何以最小成本构建具身任务与视觉任务之间的桥梁。这一研究旨在激活现有通用多模态大模型在具身任务中的潜力,推动机器人技术的进一步发展,使其在复杂环境中表现得更灵活和智能。

机器人与自动驾驶 机械臂 进阶