1绪论
练步骤见表1.2。
表1.2Critic训练步骤【76】
Tab1.2Critictrainingprocedure
步骤HDP、DHP和GDHP
0
1ADHDP、ADDHP和ADGDHP初始化尼=0、x[0]、Wa和睨;^初始化后=0、舛O]、埘O]、呢和形;
J(k)=ⅣⅣc枷。(研尼],吸)
2J(k)=砜,。(x[尼】,甜[尼],阡:)hu[k]-NNa“,。(x嘲,呢)
x[k+1]-厂(尼)x[k+1]_厂(尼)3u[k+1]=喊“ion(X[k+1],Wa)
J(k+1)=人n乞腑fc(x[尼+1],u[k十1],睨)4J(k+1)=巩ffc(x[尼+1],睨)
k=k+1,转步骤15计算疋和aJ(k)/a睨,更新Critic权值睨6
注1.1:加%州。( )为采用神经网络设计的Critic模块输出;
ⅣK砌:( )为采用神经网络设计的Action模块输出;
1.3.3与传统神经网络控制器的区别
在传统的神经网络控制器巾,神经网络权值的调整是通过最小化跟踪误差e2(f)来实现的,随着神经网络权值的调整,跟踪误差P2(f)越来越小,从而实现神经网络控制,如图1.4所示。
图1.4传统的神经网络控制框图
Fig.1.4Blockdiagramoftraditionalneuralnetworkcontrol
而基于近似动态规划的控制器,包含Critic署HAction两个模块,Action模块的权值调整通过最小化U(f)+rQ(t)来进行,其中Q(f)为Cm’1.c俣44-上犬副刊-/。出。根据近似动态规划的原理可知,当U(k)=e2(尼)时,