张欣;薄迎春;崔黎黎
【摘 要】In order to reduce the network communication and controller execution frequency while guarantee a desired control performance, an event-triggered optimal control scheme is proposed for solving the optimal control pair of discrete-time nonlinear zero-sum games in this paper. Firstly, an event-triggered condition with new event-triggered threshold is designed. The expression of the optimal control pair is obtained based on the Bellman optimality principle. Then, a single network value iteration algorithm is proposed to solve the optimal value function in this expression. A neural network is used to construct the critic network. Novel weight update rule of the critic network is derived. Through the iteration between the critic network, the control policy and the disturbance policy, the optimal value function and the optimal control pair can be solved. Further, the Lyapunov theory is used to prove the stability of the event-triggered closed-loop system. Finally, the event-triggered optimal control mechanism is applied to two examples to verify its effectiveness.%在求解离散非线性零和博弈问题时,为了在有效降低网络通讯和控制器执行次数的同时保证良好的控制效果,本文提出了一种基于事件驱动机制的最优控制方案.首先,设计了一个采用新型事件驱动阈值的事件驱动条件,并根据贝尔曼最优性原理获得了最优控制对的表达式.为了求解该表达式中的最优值函数,提出了一种单网络值迭代算法.利用一个神经网络构建评价网.设计了新的评价网权值更新规则.通过在评价网、控制策略及扰动策略之间不断迭代,最终获得零和博弈问题的最优值函数和最
优控制对.然后,利用Lyapunov稳定性理论证明了闭环系统的稳定性.最后,将该事件驱动最优控制方案应用到了两个仿真例子中,验证了所提方法的有效性. 【期刊名称】《控制理论与应用》 【年(卷),期】2018(035)005 【总页数】8页(P619-626)
【关键词】博弈论;事件驱动;自适应动态规划;最优控制 【作 者】张欣;薄迎春;崔黎黎
【作者单位】中国石油大学(华东)信息与控制工程学院,山东青岛266580;中国石油大学(华东)信息与控制工程学院,山东青岛266580;沈阳师范大学科信软件学院,辽宁沈阳110034 【正文语种】中 文 【中图分类】TP273
1 引言(Introduction)
近年来,零和博弈问题在博弈论领域和最优控制领域获得了广泛关注[1–3].这是由于零和博弈具有两个决策者,一方面要求控制输入使性能指标取极小,而在干扰影响较大时,又必须考虑干扰信号使性能指标取极大.这样的对抗性设计既能保证系统在取最优性的同时又具有较好的抗干扰能力.然而现有的求解零和博弈问题的方法大都采用时间驱动机制,即控制器是连续更新的,在每一个采样时刻系统状态与控制器之间都要进行数据通讯,控制输入都需要计算并执行.这就大大增加了通讯网络和执行器的负担.
与传统的采样方法不同,事件驱动机制采用一种非周期采样模式[4–7].文献[4]证明了这种非周期采样比周期采样在计算方面更加有利.事件驱动机制预先设定了一个事件驱动条件,只有当该条件不被满足时,才对系统状态进行采样,更新系统的控制输入,在两次更新之间采用零阶保持器保证控制器的输出.因此,能够有效地降低网络通讯和控制器执行次数,同时还能保证系统具有良好的控制性能.文献[5]研究了线性系统的事件驱动控制.文献[6]设计了事件驱动光电跟踪系统.Shaoo等人在文献[7]中研究了连续非线性系统的事件驱动状态反馈控制方案.文献[8]将事件驱动控制带入到了最优控制领域.事件驱动控制在求解连续系统的零和博弈问题方面也有了相应的成果,文献[9]将H∞问题转化为零和博弈问题,然后基于事件驱动机制进行求解.据笔者所知,目前还没有文献利用事件驱动机制求解离散非线性系统的零和博弈问题. 离散非线性系统的零和博弈问题需要求解离散Hamilton-Jacobi-Isaacs(HJI)方程来获得Nash平衡点,即最优控制对.但是对于非线性系统来说,HJI方程的解析解很难获得.Werbos在文献[10]中提出了一种有效的求解最优控制问题的方法——自适应动态规划(adaptive dynamic programming,ADP)算法,并且得到了广泛应用[11–13].文献[11]利用ADP算法处理鲁棒近似最优跟踪问题.王鼎等人在文献[12]中综述了连续时间非线性系统的自适应评判鲁棒控制设计的最新研究成果.文献[13]研究了离散非线性系统的事件驱动控制问题.ADP算法自其诞生之日起产生了一系列的同义词,例如:自适应评价设计、启发式动态规划、近似动态规划、神经元动态规划和增强学习等等.2006年在美国科学基金会组织的“2006 NSF Workshop and Outreach Tutorials on Approximate Dynamic Programming”研讨会上,建议将该方法统称为“adaptive/approximatedynamicprogramming(自适应/近似动态规划)”.ADP算法已经在一些文献中被用来处理零和博弈问题,并取得了一定的理论研究成果[14–17].然而这些研究都是基于时间驱动机制进行的. 本文将事件驱动机制、ADP算法和神经网络各自优势相结合,提出了一种求解离散
非线性零和博弈问题的事件驱动单网络值迭代控制方案.首先设计了一个新型的事件驱动阈值.根据贝尔曼最优性原理获得了最优控制对表达式.然而,由于HJI固有的非线性其解析解难以获得,导致该最优控制对无法直接求解.因此,一种单网络值迭代算法被提出.只利用一个神经网络构建评价网,从而代替了典型ADP算法中的评价——控制双网结构,有效减少了神经网络的训练次数.然后,根据HJI方程和梯度下降法设计了评价网的权值更新规则.接着,利用Lyapunov稳定性理论证明了闭环系统的稳定性.最后,将事件驱动最优控制方案应用到了两个仿真例子中,验证了所提方案既能够有效地降低网络通讯和控制器执行次数,减少神经网络的训练次数,又能够保证具有良好的性能.
2 问题描述(Problem descriptions)
考虑如下离散非线性系统的零和博弈问题,其状态方程描述为
相应的性能指标函数为普通二次型形式
其中:xk∈Ω⊆Rn为状态向量;uk∈Rm1为控制输入,控制目标是使得性能指标函数最小,而扰动输入wk∈Rm2则希望使得性能指标函数最大;f(),g()和h()为光滑可微函数;x0为系统初始状态;是对应的效用函数,矩阵Q,R和S是具有适当维数的对称正定矩阵.
假设1 系统(1)是可控的,即存在连续控制策略能够渐近镇定系统(1),f(0)=0,xk=0是系统(1)唯一的平衡点[17].
假设2 f+gu+hw在紧集Ω⊆Rn上李普希兹连续[17].
定义1 容许控制是指控制输入uk在紧集Ω⊆Rm1上连续且u(0)=0,能够控制系统(1)稳定并且保证性能指标函数(2)有界,∀x0∈Ω[17]. 由容许控制uk和扰动输入wk定义值函数
求解由式(1)–(2)描述的离散非线性系统的零和博弈问题的最优控制对,要求最优值函数满足
根据Bellman最优性原理,最优值函数V∗(xk)满足离散HJI方程[16]
其中最优控制对应该满足
为汉密尔顿函数
其中协状态.因此,
3 事件驱动最优控制方案(Event-triggered optimal control mechanism) 3.1 事件驱动条件(Event-triggered condition)
在事件驱动机制中,定义是一个单调递增序列,ki代表第i个采样时刻,i=0,1,2,3,….这个采样系统的输出是由系统(1)在ki时刻的状态xki组成的序列.定义事件驱动误差为
事件驱动条件为
其中eT为事件驱动阈值.只有当∥ek∥>eT时,驱动条件不再满足,系统进行采样.事件驱动误差重置为零,eki=0.反馈控制输入u(xki)=µ(xki)更新,并且通过零阶保持器,该控制输入在k∈[ki,ki+1)时间段内保持不变u(xk)=µ(xki),直到下一个采样时刻.需要注意的是,在本文中假设事件驱动只对控制器uk有影响,而对扰动输入wk没有
影响.根据式(9),可得
因此,系统状态方程(1)重写为
在事件驱动机制中,控制输入只在采样时刻更新,即只在ki时刻生成.因此,状态反馈控制策略(8a)应该表示为
假设3 存在正数L,满足[13]
当最后一次采样时刻为ki,k∈[ki,ki+1),根据式(9),可得ek+1=xki−xk+1.显然
利用其递归性可得
为了确保等比数列收敛,要求2L<1,即L<0.5.由于在每一个采样时刻eki =0,则式(16)变为
定义事件驱动阈值为
其中α∈(0,1]为常数.
3.2 单网络ADP值迭代算法及神经网络实现(Single network ADP value iteration algorithm and neural network implementation)
对于非线性系统来说,HJI方程(5)的解很难直接求解.为了获得式(8b)和式(13)中最优值函数的值,根据贝尔曼最优性原理,利用ADP值迭代算法来近似求解.
首先,给定一个初始值函数V0(xk),一般情况选择V0(xk)=0.u0和w0可以通过下式计算获得:
那么迭代的值函数V1(xk)为
以此类推,相应的迭代策略uj和wj迭代规则为
值函数Vj+1(xk)的迭代规则为
其中j表示迭代次数.
本文采用的是单神经网络结构,只利用一个评价网来近似值函数.该评价网由以下3层神经网络构成:
其中Wc∗∈RNc×1为未知的隐含层到输出层的理想神经网络权值,Vc∗∈RNc×n为输入层到隐含层的理想神经网络权值,Nc是隐含层节点数,ϕc()为评价网激活函数,εck∈R为评价网近似误差.
在评价网训练过程中,输入层到隐含层的权值保持不变.仅训练隐含层到输出层的权值,定义为其估计值,则实际的评价网输出为 其中.
根据值函数的迭代规则(22)和评价网输出(24)以及HJI方程(5),设计评价网的训练误差为
其中:,uj和wj的值由式(21)计算获得.
定义最小化目标函数为
利用梯度下降法,可得评价网的权值更新规则为
其中αc为评价网学习率. 假设4 存在常数θ,α,β满足
其中:0<θ<∞,0<η1<1,16η2<∞,V0为任意初始值函数[17].
若假设4成立,当迭代次数j趋于无穷大时,Vj(xk)将收敛到最优值函数V∗(xk),控制对(uj,wj)收敛到最优控制对(u∗,w∗).评价网权值收敛到Wc,.为了避免神经网络权值在训练过程中陷入到局部极小值,在训练中需要加入持续激励信号.
注1 根据假设2,f+gu+hw是李普希兹连续的.并且有限的控制输入不可能使得系统状态在一步之内跳变到无穷大,因此f(xk)+g(xk)uk+h(xk)wk是有限的.考虑到V∗(xk)对于任意有限的系统状态和控制输入都是有限的,因此一定存在0<θ<∞能够保证不等式(28)成立.此外,由于任意的初始值函数V0(xk)是有界的,那么不等式(29)也很容易得到满足.
注2 与典型的ADP算法不同,本文采用的是单网络结构,只利用一个评价网来近似值函数,省略掉了用来近似控制策略和扰动策略的两个控制网.由于本文研究的是模型完全已知仿射非线性系统,因而模型网也被省略.系统状态方程具有的仿射结构保证了控制策略和扰动策略可以根据最优性原理直接通过计算获得.如果系统模型未知或者是非仿射结构,可以通过增加模型网来构建仿射结构的系统状态方程. 单网络ADP值迭代算法具体执行步骤如下: 步骤1 初始化参数Q,R,S,ξ,αc,jmax,神经网络权值; 步骤2 令,使得V0(xk)=0;
步骤3 根据式(19)计算u0和w0; 步骤4 令j=j+1;
步骤5 根据式(12)计算xk+1; 步骤6 根据式(27)更新权值; 步骤7 根据式(24)计算Vj+1(xk); 步骤8 根据式(21)计算uj和wj;
步骤9 如果或者迭代次数j>jmax,跳转步骤10,否则跳转步骤4; 步骤10 近似最优的控制对已获得,算法结束.
3.3 事件驱动单网络值迭代算法(Event-triggered single network value iteration algorithm,ETSNVI)
根据第3.1节可知,事件驱动阈值为eT,事件驱动条件为∥ek∥6eT.当驱动条件不再满足时,事件驱动误差被重置为零,控制输入µ∗(xki)更新.控制输入和扰动输入的计算公式如式(13)和式(8b)所示,其中的最优值函数V∗(xk)可通过第3.2节中的单网络值迭代算法逼近.因此,最终获得了基于事件驱动的零和博弈问题的近似最优解为
其中协状态λki+1x和λk+1中的最优值函数由评价网的输出近似.
假设5 存在正常数α,β和L1,K∞类函数α1和α2能够使得下列不等式满足[13]:
定理1 对于离散系统(12),如果假设5成立,对于…,满足下列不等式: 其中:
则系统(12)是渐近稳定的. 证 由式(33)可知
将式(18)和式(35)代入到式(32)中,可得
求解式(36),可得
将式(37)代入式(36),可得
应用式(31),可得
因此,当不等式(34)成立时,∆V<0.根据Lyapunov稳定性理论系统(12)渐近稳定. 证毕.
本文提出的事件驱动最优控制方案结构图如图1所示,其具体步骤如下: 步骤1 初始化参数α,L,ϵ和imax.令i=0,k=0;
步骤2 根据式(9)和式(18)计算事件驱动误差ek和阈值eT;
步骤3 判断∥ek∥是否大于eT,如果大于执行步骤4,如果小于等于跳转步骤6; 步骤4 i=i+1,xki=xk,ek=0; 步骤5 根据式(30a)计算µ(xk); 步骤6 根据式(30b)计算w(xk); 步骤7 根据式(12)计算xk+1;
步骤8 如果∥xk+1−xk∥6ϵ,或者i>imax,跳转步骤9,否则跳转步骤2; 步骤9 算法结束.
注3 将值函数V(xk)定义为系统的李雅普诺夫函数.根据HJI方程(5)和公式(22),值函数V(xk)可以表述为系统状态xk的相关函数.如果系统是一个线性系统,值函数V(xk),其中P为黎卡提方程的解.显然,其满足假设5中的不等式(31).当系统为一个
非线性系统的时候,用评价网来逼近V(xk).适当的选择激活函数ϕc()也能够保证不等式(31)成立.
注4 本文提出的事件驱动单网络值迭代算法是一种离线的算法,通过在评价网、控制策略和扰动策略之间的不断迭代,最终获得全局最优控制对,该最优控制对可以在线直接应用在每一个事件驱动时刻.而且该算法一般取初始迭代值函数V0(xk)=0,不要求提供一个初始稳定增益.这对非线性系统来说是非常重要的,因为非线性系统的初始稳定增益并不容易获得.
图1 事件驱动最优控制方案结构图Fig.1 The structure of the event-triggered optimal control scheme 4 仿真验证(Simulation)
为验证本文所提的事件驱动最优控制方案的有效性,本小节将该方案应用到了F--16战斗机和一个非线性系统的仿真例子中. 例1 F–16战斗机.
考虑如下的F–16战斗机的离散数学模型[16]:
其中:xk=[αkqkδek]T,αk为攻击角度,qk为俯仰角速度,δek为升降舵偏转角,u为制动器电压,w为作用到攻击角度上的阵风.
性能指标函数如式(2)所示,其中:Q∈R3×3,R∈R1×1和S∈R1×1为单位阵.飞行器的初始状态设定为x0=[4 2 5]T.采用一个3--8--1的3层神经网络来构成评价网,评价网的初始权值Vc在[−1,1]之间随机生成.设定为零,从而保证初始迭代值函数V0(xk)=0.激活函数ϕc()选为tansig函数.评价网学习率αc=0.2.计算精度为ξ=10−5.评价网训练了2000次,为了避免神经网络权值陷入局部极小值,在前800迭代步中加入了持续激励.评价网权值的收敛轨迹如图2所示.
图2 评价网权值收敛轨迹Fig.2 The convergent trajectories of critic network weights
由式(18)可知,事件驱动阈值eT与α和L的值有关.为了选择适当的α和L,作者进行了一系列的试验.当L=0.2时,α取不同的值时,累计采样次数和系统状态曲线如图3所示.图中箭头指向的方向为α增大的方向.从图3中可以看出,随着α的增大,累计采样次数逐渐减少,系统状态x1和x2逐渐接近最优状态轨迹.但是系统状态x3随着α的增大,距离最优状态轨迹越来越远.在综合考虑了累计采样次数和系统性能之后,最终选择α=0.1.同理,当α=0.1时,选取不同的L进行了一系列的仿真,发现随着L的增大,累计采样次数逐渐减少,但是对系统状态的影响不大.最终,本文选取了α=0.1,L=0.1来确定事件驱动阈值.
当α=0.1,L=0.1时,系统的状态轨迹如图4所示.从图4可以看出,系统在796步之后能够达到精度ϵ=10−5.事件驱动误差的范数∥ek∥和阈值eT的变化情况如图5所示.
图3 α取不同值时累计采样次数和系统状态轨迹Fig.3 The number of cumulative samples and the trajectories of system states with differentα 图4 系统状态轨迹Fig.4 The trajectories of system states
图5 事件驱动误差的范数和事件驱动阈值轨迹Fig.5 The trajectories of the norm of event-triggered error and event-triggered threshold
由于事件驱动条件在前300步变化明显,所以在图5中给出了前300步的局部放大图.控制输入和扰动输入的变化轨迹如图6所示.图7给出了典型ADP算法和事件驱动单网络值迭代算法的累计采样次数对比图.
图6 控制输入和扰动输入轨迹Fig.6 The trajectories of control input and
distribute input
图7 累计采样次数Fig.7 The cumulative samples
如图7所示,本文所提出的事件驱动单网络值迭代算法只需要进行80次采样,而典型的时间驱动的ADP算法则需要进行796次采样.本文所提算法能够减少近90%的通讯次数和计算量.同时,由于只采用了一个神经网络,省略了用来近似控制策略和扰动策略的两个控制网,所以减少了近67%的神经网络权值训练量. 例2 离散非线性系统.
考虑如下的离散非线性零和博弈问题,其状态方程为 其中:
性能指标函数如式(2)所示,其中Q,R和S为具有适当维数的单位阵.初始状态设定为x0=[4 2]T.采用一个2--8--1的3层神经网络来构成评价网,评价网的初始权值Vc在[−1,1]之间随机生成.ˆWc设定为零.激活函数ϕc()选为tansig函数.评价网学习率αc=0.1.选取α=0.1,L=0.2来确定事件驱动阈值.
系统的状态轨迹如图8所示.从图8可以看出,系统在125步之后能够达到精度ϵ=10−5.图9给出了控制输入和扰动输入的变化轨迹.事件驱动误差的范数∥ek∥和事件驱动阈值eT的变化情况如图10所示.与典型的时间驱动的ADP算法需要进行125次采样相比,本文所提的事件驱动最优控制方法只进行了63次采样,减少了近50%的网络通讯量和控制器计算以及执行次数.
图8 系统状态轨迹Fig.8 The trajectories of system states
图9 控制输入和扰动输入轨迹Fig.9 The trajectories of control input and
distribute input
图10 事件驱动误差的范数和事件驱动阈值的轨迹Fig.10 The trajectories of the norm of event-triggered error and event-triggered threshold
从上述仿真结果中可以看出,本文提出的零和博弈问题的事件驱动最优控制方案,能够很好的镇定系统,并且获得零和博弈问题的近似最优控制对.通过事件驱动机制,能够有效的减少控制输入与系统之间的数据传输次数、控制器计算次数以及执行器变动次数.并且单网络值迭代算法能够有效降低神经网络权值的训练量. 5 结论(Conclusions)
本文研究了博弈论中常见的零和博弈问题.为了降低数据传输和计算次数,获得最优控制对,提出了一种基于事件驱动的单网络值迭代算法.将事件驱动控制应用到零和博弈问题求解中,设计新型事件驱动阈值.采用单网络值迭代算法,利用一个神经网络构建评价网,根据Bellman最优性原理直接计算控制对,通过在评价网、控制策略和扰动策略之间进行迭代,获得最优值函数.给出了神经网络权训练步骤.接着,利用Lyapunov理论证明了闭环系统的稳定性,并给出了事件驱动最优控制方案的执行步骤.最后,将该方案应用于F–16战斗机和一个非线性系统的零和博弈问题仿真实验中,仿真结果表明所提方法能够获得近似最优控制对,并且成功地降低了网络通信频率,控制输入的执行次数以及神经网络权值的训练次数. 参考文献(References):
【相关文献】
[1]FU Yue,CHAI Tianyou.Online solution of two-player zero-sum games for linear systems with unknown dynamics[J].Control Theory&Applications,2015,32(2):196–201.(富月,柴天佑.具有未知动态的线性系统二人零和博弈问题在线学习方案[J].控制理论与应用,2015,32(2):196–201.)
[2]YVES A,PEREZ V.Iterative strategies for solving linearized discrete mean field games systems[J].Netw Heterog Media,2012,7(2):197–217.
[3]FU Y,FU J,CHAI T.Robust adaptive dynamic programming of two-player zero-sum games for continuous-time linear systems[J].IEEE Transactions on Neural Networks and Learning Systems,2015,26(12):3314–3319.
[4]ASTROM K J,BERNHARDSSON B M.Comparison of Riemann and Lebesgue sampling for first order stochastic systems[C]//Pro-ceedings of the 41st IEEE Conference on Decision Control.Las Vegas:IEEE,2002,2:2011–2016.
[5]HEEMELES W,DONKERS M,TEEL A.Periodic event-triggered control for linear systems[J].IEEE Transactions on Automatic Control,2013,58(4):847–861.
[6]LIANG Yuan,QI Guoqing,LI Yinya,et al.Design and application of event-triggered mechanism for a kind of optical-electronic tracking system[J].Control
Theory&Applications,2017,34(10):1328–1338.(梁苑,戚国庆,李银伢,等.一类光电跟踪系统中事件触发机制的设计及应用[J].控制理论与应用,2017,34(10):1328–1338.) [7]SAHOOA,XUH,JAGANNATHANS.Neuralnetwork-basedeventtriggeredstatefeedbackcontrolofnonlinearcontinuous-timesystems[J].IEEE Transactions on Neural Networks and Learning Systems,2016,27(3):497–509. [8]VAMVOUDAKIS K G.Event-triggered optimal adaptive control algorithm for continuous-time nonlinear systems[J].IEEE/CAA Journal of Automatica Sinica,2014,1(3):282–293.
[9]ZHANG Q,ZHAO D,ZHU Y.Event-triggeredH∞control for continuous-time nonlinear system via concurrent learning[J].IEEE Transactions on Systems,Man,and Cybernetics,2017,47(7):1071–1081.
[10]WERBOS P J.Approximate dynamic programming for real-time control and neural modeling[M]//Handbook of Intelligent Control:Neural,Fuzzy and Adaptive Approaches.New York:Van Nostrand Reinhold,1992.
[11]QU Qiuxia,LUO Yanhong,ZHANG Huaguang.Robust approximate optimal tracking control of time-varying trajectory for nonlinear affine systems[J].Control
Theory&Applications,2016,33(1):77–84.(屈秋霞,罗艳红,张化光.针对时变轨迹的非线性仿射系统的鲁棒近似最优跟踪控制[J].控制理论与应用,2016,33(1):77–84.)
[12]WANG D,HE H,LIU D.Adaptive critic nonlinear robust control:a survey[J].IEEE Transactions on Cybernetics,2017,47(10):3429–3451.
[13]DONG L,ZHONG X N,SUN C Y,et al.Adaptive event-triggered control based on heuristic dynamic programming for nonlinear discrete-time systems[J].IEEE Transactions on Neural Networks and Learning Systems,2017,28(7):1594–1605.
[14]LUO B,WU H N,HUANG T.Off-policy reinforcement learning for H∞control design[J].IEEE Transactions on Cybernectics,2015,45(1):65–76.
[15]ZHANG X,ZHANG H G,WANG F Y.A new iteration approach to solve a class of Finite-horizon continuous-time nonaffine nonlinear zero-sum game[J].International Journal of Innovative,Computing,Information and Control,2011,7(2):597–608.
[16]AL-TAMIMI A,KHALAF M,LEWIS F L.Adaptive critic designs for discrete-time zero-sum games with application toH∞control[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2007,37(1):240–247.
[17]LIU D,LI H,WANG D.Neural-network-based zero-sum game for discrete-time nonlinear systems via iterative adaptive dynamic programming algorithm[J].Neurocomputing,2013,110(8):92–100.
[18]JIANG Z P,WANG Y.Input-to-state stability for discretetime nonlinear systems[J].Automatica,2001,37(6):857–869.
因篇幅问题不能全部显示,请点此查看更多更全内容