北京交通大学博士学位论文
1.2近似动态规划发展及研究现状
动态规划方法【1】是由美国数学家贝尔曼在五十年代提出的。这科t方法与庞特里雅金最大值原理和卡尔曼滤波理论被称为是现代最优控制理论中的三个里程碑。动态规划方法处理动态系统最优控制问题的关键是将系统的初值作为参数,然后利用最优目标泛函值(也称为“值函数”)的性质,获得值函数满足的动态规划方程,这个方程是动态规划方法的精髓,它本质上告诉我们:整体最优必局部最优,这个原理被称作最优性原理。
考虑如下离散非线性动态系统:
x(i+1)=厂[x(f),“(f)]
其中,系统状态变量X∈R”,控制变量为甜∈RⅢ。
系统性能冲旨标可定义为
o。T.(1.1)
,[x(f),i]=∑/K一2U[x(尼),“(尼),k]
k=f(1.2)
其中Ⅵ ]为瞬时效用函数,0<厂≤l为折扣因子。动态规划的目的是寻找控制序列甜(尼),k=i,i+l,…,使得系统性能指标(1.2)最小。对于这样一个无穷时间最优控制问题,可采用如下动态规划递推方程进行求解:
采球
J[j;(f),f]=min{U[x(i),“(f),i]+yJ[x(i+1),f+1]}
u(i)(1.3)
求解式(1.3)可以得到Z时刻的最优控制变量必然满足
:l=球
U(f)=argmin{U[x(i),“(f),f]+yJ[x(i+1),f+1】)
“(f)(1.4)
方程(1.4)是动态规划方法求解最优控制律的基本方程,它也是动态规划算法实现的基础。可见,动态规划的求解过程实际上就是计算所有状态值的过程,如果系统方程厂[川晚“(纠和指标函数以x(i),i]已知,求解最优控制律则变成一个简单的极值运算问题。然而实际上,指标函数,[x(i),i]往往是未知的,这给传统动态规划方法的实施带来困难。而且随着系统规模的增大,该方法的时间和窄问复杂度指数增长,即呈现所谓的“维数灾”现象,限制了其座:用范围。此时,求解动态规划近似解的关键在于估计动态系统的性能指标,从而获取性能指标最优的控制策略。
近似动态规划方法提供了解决上述困难的新思路,其基本思想是通过评价网络(CriticNetwork)来估计系统性能指标函数(部分文献称为“cost.to.go”函数)来避2