路径规划过程中一种解决训练效率和组合优化的方法

主讲人:赵望 | 西北工业大学硕士

  • 开课时间

    2024.08.13 19:55

  • 课程时长

    78分钟

  • 学习人数

    1566人次学习

立即学习
添加助教,领取课件

立即学习

路径规划过程中一种解决训练效率和组合优化的方法

路径规划是机器人技术中的关键过程,在自动驾驶和物流配送等领域发挥着重要作用。我们的工作利用深度强化学习(DRL)解决路径规划中的训练效率和复合优化这两大挑战。我们引入了高效渐进策略增强(EPPE)框架,该框架结合了稀疏奖励的优势,旨在为智能体实现全局最优策略,同时提供过程奖励以实时反馈智能体的策略调整。此框架不仅显著提升了策略学习效率,还有效解决了过程奖励带来的奖励耦合问题,从而确保全局最优策略的实现。在该框架内,初始奖励结构结合了引导奖励,这是一种基于传统路径规划算法的过程奖励,并赋予其显著权重以提供实时反馈,从而有效提升训练效率。此外,我们提出了增量奖励调整(IRA)模型,以逐步增加复合优化部分的奖励权重。支持IRA模型的微调策略优化(FPO)模型在整个过程中逐步调整学习率。模拟实验显示了我们框架在路径复合优化中的优势。在静态障碍环境中,与七种基准算法相比,到达目标的时间和距离至少提高了10.4%。在混合障碍环境中,这些改进分别至少为19.1%和18.2%。此外,我们的框架还显著提升了DRL的训练效率。

 

 

路径规划是机器人技术中的关键过程,在自动驾驶和物流配送等领域发挥着重要作用。我们的工作利用深度强化学习(DRL)解决路径规划中的训练效率和复合优化这两大挑战。我们引入了高效渐进策略增强(EPPE)框架,该框架结合了稀疏奖励的优势,旨在为智能体实现全局最优策略,同时提供过程奖励以实时反馈智能体的策略调整。此框架不仅显著提升了策略学习效率,还有效解决了过程奖励带来的奖励耦合问题,从而确保全局最优策略的实现。在该框架内,初始奖励结构结合了引导奖励,这是一种基于传统路径规划算法的过程奖励,并赋予其显著权重以提供实时反馈,从而有效提升训练效率。此外,我们提出了增量奖励调整(IRA)模型,以逐步增加复合优化部分的奖励权重。支持IRA模型的微调策略优化(FPO)模型在整个过程中逐步调整学习率。模拟实验显示了我们框架在路径复合优化中的优势。在静态障碍环境中,与七种基准算法相比,到达目标的时间和距离至少提高了10.4%。在混合障碍环境中,这些改进分别至少为19.1%和18.2%。此外,我们的框架还显著提升了DRL的训练效率。

机器人与自动驾驶 规划控制 定位与建图 机械臂 机器人学基础 基础
机器人与自动驾驶 规划控制 进阶
机器人与自动驾驶 规划控制 旋翼无人机 进阶
机器人与自动驾驶 规划控制 进阶