首页 >> 生活 >

四足机器人运动的模仿放松强化学习框架

2023-01-19 16:29:22 来源：用户：

为了让有腿机器人有效地探索周围环境并完成任务，它们需要能够快速可靠地移动。近年来，机器人专家和计算机科学家为有腿机器人的运动创建了各种模型，其中许多模型是使用强化学习方法训练的。

有腿机器人的有效运动需要解决几个不同的问题。这些包括确保机器人保持平衡、最有效地移动、定期交替腿部运动以产生特定的步态以及它们可以遵循命令。

虽然有腿机器人运动的一些方法取得了可喜的成果，但许多方法无法始终如一地解决所有这些问题。当他们这样做时，有时他们很难达到高速，因此只能让机器人缓慢移动。

浙江大学和浙江大学-杭州全球科技中心的研究人员最近创建了一个新的框架，可以让四足机器人高效、高速地移动。该框架在NatureMachineIntelligence中介绍，它基于一种称为模仿松弛强化学习(IRRL)的训练方法。

“让机器人赶上生物机动性是我梦想的研究目标，”进行这项研究的研究人员之一金永斌告诉TechXplore。“在其实施中，我们的想法受到计算机图形学、材料科学和力学之间的跨学科交流的启发。特征超平面的灵感来自材料科学中的三元相图。”

与传统的强化学习方法相比，Yongbin及其同事提出的方法分阶段优化了腿式机器人运动的不同目标。此外，在评估他们系统的稳健性时，研究人员引入了“随机稳定性”的概念，他们希望这一衡量标准能够更好地反映机器人在现实环境中的表现(即，与模拟相反)。

“我们试图了解不同子奖励函数的特征，然后重塑最终的奖励函数以避免局部极值的影响，”永斌解释道。“从另一个角度来看，这种方法的有效性在于从易到难的学习过程。运动模仿为最优解提供了一个很好的初始估计。”

研究人员通过一系列测试评估了他们的方法，包括模拟四足机器人和运行随机稳定性分析。他们发现，它可以让类似于麻省理工学院创造的著名迷你猎豹机器人的四足机器人以5.0m/s-1的速度奔跑，而不会失去平衡。

“我认为这项工作有两个主要贡献，”永斌说。“第一个是提出的超平面方法，它有助于我们探索超高维参数空间中奖励的性质，从而指导基于RL的控制器的奖励设计。第二个是定量稳定性评估方法，它尝试弥合模拟与真实之间的差距。”

这组研究人员引入的框架很快就可以在不同的现实世界环境中使用各种物理腿机器人进行实施和评估。最终，它可以帮助改善现有和新创建的有腿机器人的运动能力，使它们能够更快地移动，在更短的时间内完成任务，并更有效地到达目标位置。

“到目前为止，基于熵的稳定性度量是一种后验方法，”永斌补充道。“未来，我们将在控制器学习过程中直接引入稳定性指标，力争赶超自然生物的敏捷性。”

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！