1绪论
免每个阶段内针对所有状态和控制变量进行精确计算,在一定程度上避免经典动态规划“维数灾”问题,并能在给定的性能指标下获得次优(近似最优)策略。
近似动态规划方法的发展过程与强化学>习(ReinforcementLeaming,简称RL)紧密相关。Skinner是一位心理学家,他提出了奖励或惩罚(基本强化信号)决定动物(包括人)行为的著名思想,即强化学>-j(RE)。基于强化学习(RL)概念,人工智能先驱Newell等人设计了智能学习机。然而,他们的结果并不理想,原因在于强化学习fRL)的机制过于简单,直到20世纪80年代,Widrow最早提出了ADP相关概念,他在控制问题中明确的提出了评价(critic)神经单元的概念【2】[3l,初始只是作为强化学习fRL)的拓展,随后得到了越来越多的关注,并在包括控制在内的各种决策优化领域得到了应用【4-61。Barto【71和Watkins【8】分别在各自早期的著作中阐述离散条件下评价模块(Critic)能j-些问题,明确提出了利用控制信号来估计代价函数的思路。Werbos【9】在前人研究成果的基础上,以评价模块估计,函数为出发点进行了更为深入的研究,提出了用评价模块估计,函数对状态量的导数,以及用评价模块同时估计,函数和其导数等多种方法,这使得ADP方法脱离强化学习(RE),而成为一个相对独立的研究分支,也标志着ADP思想的正式确立。
ADP方法通过采用Critic模块估计系统性能指标或者其偏导数,从而指导Action模块学习,使其输出逼近传统动态规划方法的最优控制律,它具有时间上的正向性,而且避开了传统动态规划方法的“维数灾”问题110-19l。因此,该方法适用于复杂非线性系统的实时最优控制。在工程应用和理论研究中得到了广泛的关注,具有多种名称,比如“AdaptiveCriticDesign”担小删J、“ApproximateDynamicProgramming’’[30-39]、“AsymptoticDynamicProgramming”[401、“Neuro-DynamicProgramming”[41-48]等。
目前,关于ADP的研究可归纳为理论研究和应用研究两个方面:理论研究主要集中在稳定性、最优性、收敛性以及定性分析等方面[40,49彤】;应用研究主要集中在电力系统[54,55】、飞行器控制【56-58]、通信网络[[59-611、机车控锘1][28,31,62]等领域,其他一些特殊应用领域见表1.1: