-
开课时间
2024.08.13 19:55
-
课程时长
78分钟
-
学习人数
1932人次学习
添加助教,领取课件
- 课程介绍
- 精华文稿
- 课件领取
- 相关课程
路径规划是机器人技术中的关键过程,在自动驾驶和物流配送等领域发挥着重要作用。我们的工作利用深度强化学习(DRL)解决路径规划中的训练效率和复合优化这两大挑战。我们引入了高效渐进策略增强(EPPE)框架,该框架结合了稀疏奖励的优势,旨在为智能体实现全局最优策略,同时提供过程奖励以实时反馈智能体的策略调整。此框架不仅显著提升了策略学习效率,还有效解决了过程奖励带来的奖励耦合问题,从而确保全局最优策略的实现。在该框架内,初始奖励结构结合了引导奖励,这是一种基于传统路径规划算法的过程奖励,并赋予其显著权重以提供实时反馈,从而有效提升训练效率。此外,我们提出了增量奖励调整(IRA)模型,以逐步增加复合优化部分的奖励权重。支持IRA模型的微调策略优化(FPO)模型在整个过程中逐步调整学习率。模拟实验显示了我们框架在路径复合优化中的优势。在静态障碍环境中,与七种基准算法相比,到达目标的时间和距离至少提高了10.4%。在混合障碍环境中,这些改进分别至少为19.1%和18.2%。此外,我们的框架还显著提升了DRL的训练效率。