多模态大模型驱动的开放世界具身操作

主讲人:穆尧 | 香港大学博士生

  • 开课时间

    2024.09.19 19:55

  • 课程时长

    102分钟

  • 学习人数

    1608人次学习

立即学习
添加助教,领取课件

立即学习

多模态大模型驱动的开放世界具身操作

随着多模态大模型和AIGC的快速发展,通过整合大模型、计算机视觉和机器人控制等技术,我们正在推进更智能、自主、高效的机器人系统,并在多个领域发挥重要作用。本次报告将介绍面向开放世界、具备具身认知、规划和执行能力的具身智能大模型RoboCodeX、通用机器人代码生成评测平台RoboScript,以及大规模机器人专家数据生成器RoboTwin。RoboCodeX通过将视觉反馈与交互偏好和物理约束相结合,生成高质量控制代码;RoboScript专注于机器人操作的快速部署和跨机器人通用接口的建立;RoboTwin则基于AIGC和具身智能大模型,生成大规模机器人专家数据,为实现具身智能的ChatGPT奠定数据基础。

随着多模态大模型和AIGC的快速发展,通过整合大模型、计算机视觉和机器人控制等技术,我们正在推进更智能、自主、高效的机器人系统,并在多个领域发挥重要作用。本次报告将介绍面向开放世界、具备具身认知、规划和执行能力的具身智能大模型RoboCodeX、通用机器人代码生成评测平台RoboScript,以及大规模机器人专家数据生成器RoboTwin。RoboCodeX通过将视觉反馈与交互偏好和物理约束相结合,生成高质量控制代码;RoboScript专注于机器人操作的快速部署和跨机器人通用接口的建立;RoboTwin则基于AIGC和具身智能大模型,生成大规模机器人专家数据,为实现具身智能的ChatGPT奠定数据基础。

自然语言处理 大模型 基础
自然语言处理 模型压缩与部署 大模型 模型压缩与部署 进阶