近似动态规划方法及其在交通中的应用(10)

时间：2025-07-01 来源：未知

小中大

字号：

１绪论

如果动态系统未知或者已知却不可微时，Ｍｏｄｅｌ模块可由多层前馈神经网络构成。

图１．１ＡＤＰ模块设计【１２】

Ｆｉｇ．１．１ＡＤＰｄｅｓｉｇｎｓ

Ｃｒｉｔｉｃ：Ｃｒｉｔｉｃ模块由口］微神经ｌ网络构成，其输入为系统状态ｘ（尼），输出了（尼）全衍ｘ（尼），尼】，并且定义瞬时效用函数ｕ（尼）全ｕ［ｘ（尼），“（尼），尼］。为了使夕（尼）逼近状态ｘ（尼）的ｃｏｓｔ—ｔｏ—ｇｏ函数值Ｊ（ｋ），需最小化误差：

ｌＩ乞｜｜２妻乞（尼）＝圭妻‘今（尼）一ｕ（尼）一ｙ，／Ｘ（尼＋１）］２

能指标估计值为：

八八八ｏｏ一（１５）对于式（１．５），如果对所有的ｋ＝ｆ，ｉ＋１，…均满足Ｅｃ（／ｃ）＝０，则可得ｆ时刻的性

，（ｆ）＝己厂（ｆ）＋／，（ｆ＋１）＝ｕ（ｆ）＋ｙｌｕ（ｉ＋１）＋ｙ，（ｆ＋２）Ｉ＝…＝∑７ｋ－ｉｕ（尼）（１．６）

显然，随着学习的深入，Ｃｒｉｔｉｃ模块将能够产生较好的系统性能指标估计值。简单来说，Ｃｒｉｔｉｃ模块通过训练使得误差的平方ｌＩＥＩｌ最小。

Ａｃｔｉｏｎ：根据动态规划最优性原理，Ａｃｔｉｏｎ模块作为神经网络控制器，它的训练目标为最小化系统性能指标Ｊ（ｋ），也就是使得ｕ（ｋ）＋？＇ＪＣｋ＋１）最小。根据Ｃｒｉｔｉｃ的估计对象（Ｊ和甜／舐）的不同，近似动态规划方法可分为

近似动态规划方法及其在交通中的应用(10).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

×

相

关

文

章