尽管机器人在过去几年中变得越来越先进,但它们中的大多数仍然无法可靠地在非常拥挤的空间中导航,例如城市环境中的公共区域或道路。然而,要在未来的智慧城市中大规模实施,机器人需要能够可靠、安全地在这些环境中导航,而不会与人类或附近的物体发生碰撞。
萨拉戈萨大学和西班牙阿拉贡工程研究所的研究人员最近提出了一种新的基于机器学习的方法,可以改善室内和室外拥挤环境中的机器人导航。在arXiv服务器上预发表的一篇论文中介绍的这种方法需要使用内在奖励,本质上是AI代理在执行与其试图完成的任务不严格相关的行为时收到的“奖励”。
“自主机器人导航是一个悬而未决的问题,尤其是在非结构化和动态环境中,机器人必须避免与动态障碍物发生碰撞并到达目标,”进行该研究的研究人员之一DiegoMartinezBaselga告诉TechXplore.“深度强化学习算法已被证明在成功率和达到目标的时间方面具有很高的性能,但仍有很多需要改进的地方。”
MartinezBaselga和他的同事介绍的方法使用内在奖励,奖励旨在增加代理人探索新“状态”(即与其环境的交互)的动机或降低给定场景中的不确定性水平,以便代理人能够更好地预测他们行为的后果。在他们的研究中,研究人员特别使用这些奖励来鼓励机器人访问其环境中的未知区域并以不同的方式探索其环境,以便它能够随着时间的推移学会更有效地导航。
“最先进的用于人群导航的深度强化学习的大部分工作都集中在改进网络和机器人感知的处理上,”MartinezBaselga说。“我的方法研究如何在训练期间探索环境以改进学习过程。在训练中,机器人不会尝试随机动作或最佳动作,而是尝试做它认为可以从中学到更多东西的事情。”
MartinezBaselga和他的同事使用两种不同的方法评估了使用内在奖励来解决机器人在拥挤空间中导航的潜力。其中第一个集成了所谓的“内在好奇心模块”(ICM),而第二个基于一系列称为随机编码器的算法以进行有效探索(RE3)。
研究人员在CrowdNav模拟器上运行的一系列模拟中评估了这些模型。他们发现,他们提出的两种整合内在奖励的方法优于先前开发的用于在拥挤空间中进行机器人导航的最先进方法。
将来,这项研究可以鼓励其他机器人专家在训练他们的机器人时使用内在奖励,以提高他们应对不可预见情况并在高度动态环境中安全移动的能力。此外,MartinezBaselga和他的同事测试的两个基于奖励的内在模型很快就可以在真实机器人中进行集成和测试,以进一步验证它们的潜力。
“结果表明,应用这些智能探索策略,机器人学习速度更快,最终学到的策略更好;并且它们可以应用于现有算法之上以改进它们,”MartinezBaselga补充道。“在我接下来的研究中,我计划改进机器人导航中的深度强化学习,使其更安全、更可靠,这对于在现实世界中使用它非常重要。”