手机版

近似动态规划方法及其在交通中的应用(10)

发布时间:2021-06-06   来源:未知    
字号:

1绪论

如果动态系统未知或者已知却不可微时,Model模块可由多层前馈神经网络构成。

图1.1ADP模块设计【12】

Fig.1.1ADPdesigns

Critic:Critic模块由口]微神经l网络构成,其输入为系统状态x(尼),输出了(尼)全衍x(尼),尼】,并且定义瞬时效用函数u(尼)全u[x(尼),“(尼),尼]。为了使夕(尼)逼近状态x(尼)的cost—to—go函数值J(k),需最小化误差:

lI乞||2妻乞(尼)=圭妻‘今(尼)一u(尼)一y,/X(尼+1)]2

能指标估计值为:

八八八oo一(1 5)对于式(1.5),如果对所有的k=f,i+1,…均满足Ec(/c)=0,则可得f时刻的性

,(f)=己厂(f)+/,(f+1)=u(f)+ylu(i+1)+y,(f+2)I=…=∑7k-iu(尼)(1.6)

显然,随着学习的深入,Critic模块将能够产生较好的系统性能指标估计值。简单来说,Critic模块通过训练使得误差的平方lIEIl最小。

Action:根据动态规划最优性原理,Action模块作为神经网络控制器,它的训练目标为最小化系统性能指标J(k),也就是使得u(k)+?'JCk+1)最小。根据Critic的估计对象(J和甜/舐)的不同,近似动态规划方法可分为

近似动态规划方法及其在交通中的应用(10).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
×
二维码
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)