首页 >> 生活 >

离散时间奖励有效地指导从系统数据中提取连续时间最优控制策略

2024-07-04 16:59:08 来源: 用户: 

奖励的概念是强化学习的核心,也广泛应用于自然科学、工程学和社会科学。生物通过与环境互动并观察由此产生的奖励刺激来学习行为。奖励的表达在很大程度上代表了系统的感知,并定义了动态系统的行为状态。在强化学习中,寻找能够解释动态系统行为决策的奖励一直是一个开放的挑战。

本研究旨在提出在连续时间和动作空间中使用离散时间奖励的强化学习算法,其中连续空间对应于物理定律描述的系统的现象或行为。将状态导数反馈到学习过程中的方法导致了基于离散时间奖励的强化学习分析框架的发展,这与现有的积分强化学习框架有本质区别。

“当想到将导数反馈到学习过程中时,我感觉就像闪电一样。你猜怎么着?它在数学上与离散时间基于奖励的策略学习有关,”CiChen博士回忆起他的顿悟时刻时说道。

在离散时间奖励的指导下,行为决策律的搜索过程分为前馈信号学习和反馈增益学习两个阶段。研究发现,利用基于离散时间奖励的技术可以从动态系统的实时数据中搜索连续时间动态系统的最优决策律。

核心是利用采样数据从数据中提取规律。为此,预处理动态系统的动作和输出,并构建前馈信号,用于反馈增益学习和在线实时控制回路的设计。然后,在离散时间序列上测量输入输出数据和前馈信号,在此基础上使用张量积组装离散时间数据样本。通过策略迭代计算最优贝尔曼方程。通过策略评估和改进,通过严格的数学运算和收敛推导从离散时间数据样本中获得最优反馈增益。最后,前馈信号和反馈增益共同贡献最优决策律。图片来源:中国科学出版社

上述方法已应用于电力系统状态调节,实现输出反馈的优化设计,该过程省去了动态模型辨识的中间阶段,并通过从现有的积分强化学习框架中去除奖励积分算子,显著提高了计算效率。

本研究利用离散时间奖励引导来发现连续时间动态系统的优化策略,构建理解和改进动态系统的计算工具,该成果可在自然科学、工程学和社会科学中发挥重要作用。

该项研究由一个国际科学家团队领导,包括陈博士(广东工业大学自动化学院)、谢利华博士(新加坡南洋理工大学电气与电子工程学院)和谢胜利博士(粤港澳智能离散制造联合实验室、广东省物联网信息技术重点实验室),并由刘逸璐博士(美国田纳西大学电气工程与计算机科学系)和FrankL.Lewis博士(美国德克萨斯大学阿灵顿分校UTA研究所)共同参与。

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章
  • 【木地板材料】木地板是一种广泛应用于家居和商业空间的地面装饰材料,因其自然美观、耐用性强、环保性好等特...浏览全文>>
  • 【木地板安装】木地板安装是一项需要细致规划和专业操作的工程,无论是新房装修还是旧房翻新,选择合适的木地...浏览全文>>
  • 【木的组词怎么写】在汉语学习中,词语的积累和运用是非常重要的部分。对于“木”这个字来说,它不仅是常见的...浏览全文>>
  • 【木的象形字有哪些字】在汉字的发展过程中,许多字最初都是通过象形的方式创造出来的,用来表示具体的事物。...浏览全文>>
  • 【木岛法子介绍】木岛法子(Kazuko Kikuchi)是日本著名演员、模特及艺人,以其在影视作品中的出色表现和独特...浏览全文>>
  • 【木代尔是什么面料】“木代尔是什么面料”是许多消费者在选购衣物时常常会提出的问题。木代尔是一种天然纤维...浏览全文>>
  • 【木代尔和莫代尔哪种面料好】在选择衣物面料时,很多人会遇到“木代尔”和“莫代尔”这两个名称,容易混淆它...浏览全文>>
  • 【萝卜的营养价值】萝卜是一种常见的根茎类蔬菜,不仅味道清脆爽口,还具有丰富的营养价值。无论是生吃、炒食...浏览全文>>
  • 【萝卜的药用功效和作用】萝卜,作为日常生活中常见的蔬菜之一,不仅味道清脆、营养丰富,还具有多种药用价值...浏览全文>>
  • 【萝卜的家常做法】萝卜是一种非常常见的蔬菜,不仅价格实惠,而且营养丰富,适合多种烹饪方式。无论是炖、炒...浏览全文>>