路径规划过程中一种解决训练效率和组合优化的方法 - 深蓝学院 - 专注人工智能与自动驾驶的学习平台

收藏

邀
请
朋
友
一
起
学

路径规划过程中一种解决训练效率和组合优化的方法

主讲人：赵望 | 西北工业大学硕士

开课时间

2024.08.13 19:55
课程时长

78分钟
学习人数

2797人次学习

立即学习

添加助教，领取课件

立即学习

路径规划过程中一种解决训练效率和组合优化的方法

路径规划是机器人技术中的关键过程，在自动驾驶和物流配送等领域发挥着重要作用。我们的工作利用深度强化学习（DRL）解决路径规划中的训练效率和复合优化这两大挑战。我们引入了高效渐进策略增强（EPPE）框架，该框架结合了稀疏奖励的优势，旨在为智能体实现全局最优策略，同时提供过程奖励以实时反馈智能体的策略调整。此框架不仅显著提升了策略学习效率，还有效解决了过程奖励带来的奖励耦合问题，从而确保全局最优策略的实现。在该框架内，初始奖励结构结合了引导奖励，这是一种基于传统路径规划算法的过程奖励，并赋予其显著权重以提供实时反馈，从而有效提升训练效率。此外，我们提出了增量奖励调整（IRA）模型，以逐步增加复合优化部分的奖励权重。支持IRA模型的微调策略优化（FPO）模型在整个过程中逐步调整学习率。模拟实验显示了我们框架在路径复合优化中的优势。在静态障碍环境中，与七种基准算法相比，到达目标的时间和距离至少提高了10.4％。在混合障碍环境中，这些改进分别至少为19.1％和18.2％。此外，我们的框架还显著提升了DRL的训练效率。

课程介绍
精华文稿
课件领取
相关课程

路径规划是机器人技术中的关键过程，在自动驾驶和物流配送等领域发挥着重要作用。我们的工作利用深度强化学习（DRL）解决路径规划中的训练效率和复合优化这两大挑战。我们引入了高效渐进策略增强（EPPE）框架，该框架结合了稀疏奖励的优势，旨在为智能体实现全局最优策略，同时提供过程奖励以实时反馈智能体的策略调整。此框架不仅显著提升了策略学习效率，还有效解决了过程奖励带来的奖励耦合问题，从而确保全局最优策略的实现。在该框架内，初始奖励结构结合了引导奖励，这是一种基于传统路径规划算法的过程奖励，并赋予其显著权重以提供实时反馈，从而有效提升训练效率。此外，我们提出了增量奖励调整（IRA）模型，以逐步增加复合优化部分的奖励权重。支持IRA模型的微调策略优化（FPO）模型在整个过程中逐步调整学习率。模拟实验显示了我们框架在路径复合优化中的优势。在静态障碍环境中，与七种基准算法相比，到达目标的时间和距离至少提高了10.4％。在混合障碍环境中，这些改进分别至少为19.1％和18.2％。此外，我们的框架还显著提升了DRL的训练效率。

点击领取完整课件

机器人学基础

机器人与自动驾驶规划控制定位与建图具身智能机器人学基础基础

自动驾驶控制与规划

机器人与自动驾驶规划控制进阶

移动机器人运动规划

机器人与自动驾驶规划控制无人机进阶

自动驾驶预测与决策规划

机器人与自动驾驶规划控制进阶

关于我们版权声明联系电话：010-86226736

服务协议反馈建议联系邮箱：service@shenlanxueyuan.com

友情链接：

在线咨询

返回顶部