基于基础模型的可泛化物体操纵策略

邀
请
朋
友
一
起
学

主讲人：夏文科 | 中国人民大学博士生

开课时间

2024.09.10 19:55
课程时长

72分钟
学习人数

11677人次学习

立即学习

添加助教，领取课件

立即学习

基于基础模型的可泛化物体操纵策略

可泛化的机器人操纵对家庭服务类机器人来说十分关键，近期的研究为了实现可泛化的机器人操纵往往依赖于海量数据进行模仿学习，但在真实场景中收集充足的机器人数据过于昂贵。因此本工作拟借助大语言模型充足的世界知识和上下文学习能力，将大语言模型与传统控制算法相结合，使得大语言模型可以直接用于机器人底层控制，从而借助少量示例数据实现复杂铰链物体的可泛化操纵。

课程介绍
精华文稿
课件领取
相关课程

昔日【华为】的天才少年稚晖君，如今已蜕变成为引领超十亿融资规模人形机器人企业的领航者。具身智能的未来展望愈发璀璨，特别是随着具身多模态大模型的兴起，它在机械臂领域的融合应用正展现出前所未有的广阔前景与强大潜力

基于此，我们特意邀请中国人民大学夏文科博士，来深蓝学院进行了一场公开分享。同时，对期间聊到的几个Q&A进行简要梳理，以期与诸位同行，进一步深入探讨。

机械臂的操纵策略中是否有规划和控制的层级划分？传统规划方法在大模型时代的发展趋势如何？

夏文科（人大博士）：在我们的相关研究工作中，很多工作主要集中在规划方面，即我们需要让模型知道它到底要去哪里，而不是实现精细控制的具体操作。也就是说，我们告诉模型从A点到B点的目标，但如何从A点到B点的具体过程，仍然依赖于传统的控制方法。

当然，现在基于深度学习的技术，也有一些尝试将传统控制算法进行改进的研究。例如，模仿学习可以实现20赫兹的控制，然后通过插值方法将其转换为1000赫兹的控制，以适应更高精度的要求。

另外，英伟达等机构的研究工作专注于如何用神经网络代替传统的控制算法，实现从n点到n点的轨迹规划。以前我们可能使用A星算法等进行路径搜索，但现在我们可以使用神经网络，通过大量无噪声的规划数据学习，形成一个从n点到n点的模型，实现1000赫兹的精确控制。这些研究展示了利用深度学习技术改进机器人控制方法的可能性。

LLMs模型生成操纵轨迹与传统工业机器人轨迹规划控制之间的区别与联系是什么?两者在未来的发展上可能会有些怎样的趋势？

夏文科（人大博士）：目前看来，现有的工作在生成操纵轨迹方面，严格来说并不是生成完整的轨迹，而是生成一些关键点。无论是我们的工作还是之前的Voxposer，生成的都是3D位置点。这些关键点随后通过传统的控制算法转换成连续的轨迹，以实现物体的操纵。

例如，许多研究工作专注于抓取检测（grasp detection），它们会预测一些抓取姿态（grasp pose）。但要实现物体的抓取，仍然需要依赖传统的控制算法，指导机械臂从初始位置移动到预测的抓取位置。

因此，大语言模型在生成操纵轨迹时，实际上只生成了一些关键点。这是因为大语言模型的细节处理能力有限，很难像控制算法那样生成高频率（如1000赫兹）的控制信号。然后，这些关键点被传统的机器人轨迹控制算法用来插值，以实现完整轨迹的生成。

总的来说，轨迹规划和控制的关键在于能够实现精确的控制，知道如何到达特定的位点。但问题在于，我们并不清楚具体要去哪里。例如，如果任务是打开锅盖，仅使用传统控制算法，我们并不知道锅盖的确切位置。这时，大语言模型和基础模型的作用就是告诉我们锅盖在哪里，然后我们再利用传统控制算法，精确地移动到锅盖的位置，进行操纵。

不同类型的机械臂，比如具身机器人、工业kuka机械臂、以及医疗达芬奇机器人，这之间有没有什么共同的知识点？

夏文科（人大博士）：在我看来，不同类型的机器人在应用上确实存在差异。例如，大型机器人目前大多还处于科研阶段，因此研究者更关注其泛化能力，即如何使机器人能够在家庭环境或服务行业中落地应用。这种泛化性是他们研究的重点。而工业kuka机械臂则更注重精确操作，它们需要在流水线上进行精确操纵，因此更多地聚焦于操作的灵敏度和误差控制，比如要求误差控制在0.01毫米或0.1毫米以内，以确保在精细作业中的稳定性能。

至于医疗机器人，虽然我对其了解不多，但从我看过的一些医疗机器人的演讲和展台来看，它们更多侧重于如何减少抖动。例如，在远程操作机械臂进行手术时，人为的手抖可能会对患者造成伤害，而医疗机器人可以通过远程操作来模仿人类的操作，减少抖动，使手术更加顺利，避免大的意外发生。

总的来说，这些机器人的共同点可能更多地偏向于硬件方面。而我们这边主要研究策略、模型和感知阶段，与他们的应用场景相比，我们的研究重点有所不同。

操纵难点主要在哪个地方？在机械方面还是在信息传递方面？

夏文科（人大博士）：我认为在机械操作方面，泛化性是最关键的挑战。虽然在机械层面上，问题相对容易解决，例如，如果目标是到达某个特定位点，现有的控制算法通常能够提供解决方案。但最困难的部分是如何确定我应该到达哪个位点。例如，如果我要打开抽屉，我需要知道把手的位置。在抓住把手之后，我还需要知道如何正确地转动把手，以符合物理规律地打开门。因为如果我们直接拽拉把手，它可能不会打开门，反而可能会损坏转轴。

因此，泛化性的难点在于对物体有深入的理解，包括需要操作物体的哪个部分，以及如何操作这个部分。我需要决定是旋转、移动还是以其他方式进行操作。这种对物体的理解和操作的决策，是实现有效泛化的关键。

模型部署的本地还是云端，是微调后的还是通用的，实时性如何？

夏文科（人大博士）：我们的工作分为几个部分。首先，我们使用了一个大语言模型来理解整体任务，但这仅仅影响了专家轨迹，并没有对我们的探索轨迹产生影响，因此这个部分可以离线处理。我们直接采用了GPT 4V的方法，所以它并不涉及实质性的问题。

其次，我们的第二项工作是在一个GPT4场景中进行的。由于当时GPT 4V还未发布，我们基于结构性文本进行了运动规划，以实现可泛化的物理操作。

如何将这些工作应用在工业场景？

夏文科（人大博士）：目前，大语言模型等基础模型的应用场景主要集中在规划阶段。例如，大语言模型可能需要对任务进行拆解，如将一个方块放到另一个方块上的任务，模型需要检测目标方块、抓取它，然后放置到指定位置。

在工业场景中，我们与工业界的专家交流了相关项目，他们的需求可能包括对化学试剂进行操作，这可能涉及几十个步骤的操纵。这些步骤可能需要根据不同化学试剂的浓度进行调整。如果所有操作都由人工完成，过程将非常复杂，可能需要在实验室中等待半天时间。

然而，如果使用基础模型，如大语言模型，对不同任务进行规划，模型可以根据输入的试剂浓度等参数自动判断并选择相应的处理方法，然后自动执行操作。由于每一步的操作相对固定，可以通过智能化的方式实现，这将大大减轻研究人员和工作人员的工作负担。

目前我们接触到的应用场景主要还是集中在规划阶段，帮助研究人员和工作者减轻工作负担。如果直接编写程序来处理不同的物体排列组合，可能需要编写数千条规则。但大语言模型能够理解任务，并快速协助化工领域的研究人员和工作者，提高工作效率。

点击领取完整课件