北京交通大学博士学位论文
表1.1ADP一些特殊的应用领域
Table1.1SomespecialapplicationdomainsofADP
文献应用领域
燃烧炉(Boilercombustion)
光驱制造(Manufactureofdiskdrives)
船舶驾驶(Shipsteering)
围棋游戏(PlaygameofGo)
光电系统fPhotovoltaicsystem)
产品鉴定(Pvsystem)
隔振控制(Vibrationisolationcontr01)
电动车辆(Electricvehicle)
过程控制(Processcontr01)
直升‘机维护(Helicoptertrimming)
运输策略fTransportationpolicies)
自动着陆器(Autolander)
模糊控制(Fuzzycontr01)
机器人(Autonomouswheeledmobilerobocl陋眩№陋瞄皿p陋口pKp
pp自动驾驶(Intelligentsteering)股票交易(Stocktrading)
国内研究ADP方法的例子较少,王飞跃等人【』73b对ADP算法进行了介绍,回顾了ADP算法的发展和研究现状;程玉虎等人钊‘对模型未知以及具有连续状态的系统控制问题,提出一种基于强化学习的自适应控制策略,有效克服了状态空间分割所带来的维度灾难[74】;郁文生、许静【75,76】从最优控制的角度研究了快速路单入LjI醺道的控制问题,提出了基于ADP的匝道控制方法;Bai[77j对上述:号法进行了改进,引入了增强式学习中的适合度轨迹机制(Eligibility.Traces,ET机制),通过在线学习充分利用有限的训练数据,提高了算法的学习效率;Cai[30】于2007年提出了基于ADP单交叉口在线控制策略,根据实时的交通信息来控制信号灯的状态;Li[78,79J随后提出了基于ADP的多交叉口在线控制策略,通过综合考虑二F线上各个交叉口的交通信息,优化配置各交叉口的配时策略,实现了干线控制。总的来说,对于近似动态规划方法的研究,国内尚处于起步阶段。
1.3典型的近似动态规划算法
典型的近似动态规划方法通常包括三个模块:Critic模块,Model模块和Action模块,如图1.1所示。各模块功能如下:
Model:Model模块有两个作用:一是模拟被控对象,二是连通学:习误差反传通道。如果动态系统的解析形式已知,则可直接连入系统,作为Model使用。而
4