手机版

近似动态规划方法及其在交通中的应用(12)

时间：2025-04-17 来源：未知

小中大

字号：

１绪论

图中的虚线表示Ｃｒｉｔｉｃ模块Ａｃｔｉｏｎ模块进行权值调整时的误差反传通道。和其中，Ｃｒｉｔｉｃ模块权值更新的表达式如下所示：

△％一妒∽ｈ堆”１）］＿叭ｍ翟

练目标为最小化系统性能指标，故其权值调整可采用如下方式：（１．１０）其中，形为Ａｃｔｉｏｎ模块权值向量，矾为其学习率。通过Ｃｒｉｔｉｃ模块权值的不断调整，我们寻找最优性能指标，（最大或者最小），使得全部Ｕ（．）最优。为了达到这样的效果，我们建立如图１．２（ｂ）所示的连接。根据动态规划最优性原理，它的训

ＡＷ：一７７一ｏＪ（ｔ）：一刀皇业一ＯＪ（ｔ）ａ。ａａＷ。ａａＷ０Ａ（ｆ、（１．１１）

ａａ、７

其中，呢为Ａｃｔｉｏｎ权值向量，仉为其学习率。

在ＨＤＰ中，Ｍｏｄｅｌ模块作为连通Ａｃｔｉｏｎ模块和Ｃｒｉｔｉｃ模块的通道，如果控制系统的解析形式已知，可以直接作为Ｍｏｄｅｌ使用，如果控制系统未知或已知却不可微，可以使用一个可微多层前馈神经网络近似替代。当Ｃｒｉｔｉｃ输入端包含系统状态和控制向量时，就构成了ＨＤＰ的ＡＤ形式——ＡＤＨＤＰ。

１．３．２ＤＨＰ和ＡＤＤＨＰ

ＤＨＰ和它的ＡＤ形式，通过Ｃｒｉｔｉｃ去估计函数，关于向量】，（ｆ）的偏导数。Ｃｒｉｔｉｃ随着时间变化最小化跟踪误差ＩＩ岛Ｉ｜：

＆忙∑ｔ乞丁∽乞∽

式子当中，（１．１２）

掣，＝篙一ｙ雩铲一鬻

其中，虚线表示误差信号反传通道。ｎ㈣在式（１．１３）巾，ａ（）／ａｒ（ｏ是一个关于变量ｙ（ｆ）的偏导数。Ｃｒｉｔｉｃ的训练要比在ＨＤＰ中更加复杂，因为我们要考虑到图１．３中所示的所有相关路径的反向传播，

近似动态规划方法及其在交通中的应用(12).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

上一篇：三(2)班校园安全日记

下一篇：2014年人教版小学四年级数学上册期中试卷(精选两

×

二维码

相

关

文

章

分类导航

幼儿教育小学教育初中教育教学研究专业资料资格考试教育文库外语考试高等教育求职职场高中教育实用文档

近似动态规划方法及其在交通中的应用(12)

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签

近似动态规划方法及其在交通中的应用(12)

推荐阅读

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签