1绪论
图中的虚线表示Critic模块Action模块进行权值调整时的误差反传通道。和其中,Critic模块权值更新的表达式如下所示:
△%一妒∽h堆”1)]_叭m翟
练目标为最小化系统性能指标,故其权值调整可采用如下方式:(1.10)其中,形为Action模块权值向量,矾为其学习率。通过Critic模块权值的不断调整,我们寻找最优性能指标,(最大或者最小),使得全部U(.)最优。为了达到这样的效果,我们建立如图1.2(b)所示的连接。根据动态规划最优性原理,它的训
AW:一77一oJ(t):一刀皇业一OJ(t)a。aaW。aaW0A(f、(1.11)
aa、7
其中,呢为Action权值向量,仉为其学习率。
在HDP中,Model模块作为连通Action模块和Critic模块的通道,如果控制系统的解析形式已知,可以直接作为Model使用,如果控制系统未知或已知却不可微,可以使用一个可微多层前馈神经网络近似替代。当Critic输入端包含系统状态和控制向量时,就构成了HDP的AD形式——ADHDP。
1.3.2DHP和ADDHP
DHP和它的AD形式,通过Critic去估计函数,关于向量】,(f)的偏导数。Critic随着时间变化最小化跟踪误差II岛I|:
&忙∑t乞丁∽乞∽
式子当中,(1.12)
掣,=篙一y雩铲一鬻
其中,虚线表示误差信号反传通道。n㈣在式(1.13)巾,a( )/ar(o是一个关于变量y(f)的偏导数。Critic的训练要比在HDP中更加复杂,因为我们要考虑到图1.3中所示的所有相关路径的反向传播,