线性二次型调节器(Linear Quadratic Regulator, LQR)的无限时域最优控制求解与黎卡提方程
题目描述
线性二次型调节器(LQR)是一种经典的最优控制方法,用于解决线性动态系统在无限时域上的状态调节问题。给定一个线性时不变系统
\[\dot{x}(t) = A x(t) + B u(t) \]
其中 \(x(t)\) 是状态向量,\(u(t)\) 是控制输入向量,\(A\) 和 \(B\) 是系统矩阵。目标是最小化无限时域上的二次型代价函数
\[J = \int_0^\infty \left( x(t)^T Q x(t) + u(t)^T R u(t) \right) dt \]
其中 \(Q\) 是半正定状态权重矩阵,\(R\) 是正定控制权重矩阵。问题要求找到最优控制律 \(u^*(t) = -K x(t)\),使得代价 \(J\) 最小。这个过程涉及求解代数黎卡提方程(Algebraic Riccati Equation, ARE)以获得最优反馈增益矩阵 \(K\)。我们将详细推导LQR的求解步骤,并解释黎卡提方程的来源与求解方法。
解题过程
步骤1:问题形式化
考虑连续时间线性系统:
\[\dot{x}(t) = A x(t) + B u(t), \quad x(0) = x_0 \]
代价函数为:
\[J = \int_0^\infty \left( x(t)^T Q x(t) + u(t)^T R u(t) \right) dt \]
目标:找到控制输入 \(u(t)\) 的函数形式,以最小化 \(J\)。由于系统是线性的、代价是二次的,且时域无限,最优控制律是状态的线性反馈,即 \(u^*(t) = -K x(t)\),其中 \(K\) 是常数增益矩阵。
步骤2:哈密顿-雅可比-贝尔曼(HJB)方程推导
对于无限时域问题,我们使用动态规划方法。定义值函数 \(V(x)\) 为从初始状态 \(x\) 出发的最小代价:
\[V(x) = \min_{u(\cdot)} \int_0^\infty \left( x(\tau)^T Q x(\tau) + u(\tau)^T R u(\tau) \right) d\tau \]
假设 \(V(x)\) 是光滑的,且满足哈密顿-雅可比-贝尔曼方程:
\[\min_{u} \left( x^T Q x + u^T R u + \frac{\partial V}{\partial x}^T (A x + B u) \right) = 0 \]
这里 \(\frac{\partial V}{\partial x}\) 是值函数对状态向量的梯度(列向量)。
步骤3:求解最优控制输入
对HJB方程中的 \(u\) 求最小化。令括号内的表达式为 \(H(x, u)\):
\[H(x, u) = x^T Q x + u^T R u + \frac{\partial V}{\partial x}^T (A x + B u) \]
对 \(u\) 求导并设为零:
\[\frac{\partial H}{\partial u} = 2 R u + B^T \frac{\partial V}{\partial x} = 0 \]
因此最优控制为:
\[u^* = -\frac{1}{2} R^{-1} B^T \frac{\partial V}{\partial x} \]
由于我们期望 \(u^* = -K x\),可推测 \(\frac{\partial V}{\partial x}\) 与 \(x\) 线性相关。
步骤4:猜测值函数形式并代入
对于二次型代价和线性系统,值函数应为状态的二次型形式:
\[V(x) = x^T P x \]
其中 \(P\) 是一个对称正定矩阵(待求)。那么梯度为:
\[\frac{\partial V}{\partial x} = 2 P x \]
代入最优控制表达式:
\[u^* = -\frac{1}{2} R^{-1} B^T (2 P x) = -R^{-1} B^T P x \]
因此,最优反馈增益矩阵为:
\[K = R^{-1} B^T P \]
步骤5:推导黎卡提方程
将 \(V(x) = x^T P x\) 和 \(u^* = -K x\) 代入HJB方程:
\[x^T Q x + (K x)^T R (K x) + (2 P x)^T (A x + B (-K x)) = 0 \]
展开各项:
- \(x^T Q x\)。
- 控制代价项:\(x^T K^T R K x\)。
- 动态项:\(2 x^T P (A x - B K x) = 2 x^T P (A - B K) x\)。
由于 \(x^T M x = 0\) 对所有 \(x\) 成立意味着 \(M + M^T = 0\),但这里我们假设对称性,直接令矩阵系数为零。
将所有项合并为二次型 \(x^T (\cdots) x = 0\),得到:
\[Q + K^T R K + 2 P (A - B K) = 0 \]
代入 \(K = R^{-1} B^T P\):
\[Q + (R^{-1} B^T P)^T R (R^{-1} B^T P) + 2 P (A - B R^{-1} B^T P) = 0 \]
简化第二项:\((R^{-1} B^T P)^T R = P B R^{-1} R = P B\),因此 \(P B R^{-1} B^T P\)。
于是方程变为:
\[Q + P B R^{-1} B^T P + 2 P A - 2 P B R^{-1} B^T P = 0 \]
合并 \(P B R^{-1} B^T P\) 项:
\[Q + 2 P A - P B R^{-1} B^T P = 0 \]
整理为对称形式(通常写成 \(A^T P + P A\) 而非 \(2 P A\))。注意到 \(P\) 对称,所以 \(2 P A = P A + A^T P\)。验证:对任意对称 \(P\),有 \((P A)^T = A^T P\),因此 \(P A + A^T P\) 是对称的,且等于 \(2 P A\) 当 \(P A\) 对称,但一般情况下更常用 \(P A + A^T P\)。标准推导中,从HJB出发直接得到:
\[A^T P + P A - P B R^{-1} B^T P + Q = 0 \]
这就是连续时间无限时域LQR的代数黎卡提方程(ARE)。
步骤6:求解代数黎卡提方程(ARE)
ARE是一个非线性矩阵方程,通常通过数值方法求解。常见方法包括:
- 哈密顿矩阵法:构造哈密顿矩阵:
\[ H = \begin{bmatrix} A & -B R^{-1} B^T \\ -Q & -A^T \end{bmatrix} \]
求解 \(H\) 的特征值和特征向量。若 \(H\) 没有虚轴上的特征值,且满足某些可稳性和可检性条件,则存在唯一正半定解 \(P\)。选取 \(H\) 的稳定不变子空间(特征值实部小于零对应的特征向量),可解出 \(P\)。
- 迭代法:如牛顿法或Riccati微分方程的稳态求解。
一旦得到 \(P\),最优增益为 \(K = R^{-1} B^T P\),最优控制律为 \(u^*(t) = -K x(t)\)。
步骤7:闭环系统稳定性
在最优控制下,闭环系统动态为:
\[\dot{x} = (A - B K) x = (A - B R^{-1} B^T P) x \]
可以证明,若 \((A, B)\) 可稳且 \((A, Q^{1/2})\) 可检,则 \(A - B K\) 是 Hurwitz 的(所有特征值实部为负),保证系统稳定。
步骤8:最小代价计算
最优代价值为:
\[J^* = x_0^T P x_0 \]
其中 \(x_0\) 是初始状态。
总结
线性二次型调节器(LQR)的求解核心在于:
- 通过动态规划建立HJB方程。
- 假设值函数为二次型 \(V(x) = x^T P x\)。
- 推导出代数黎卡提方程 \(A^T P + P A - P B R^{-1} B^T P + Q = 0\)。
- 数值求解 \(P\) 得到最优反馈增益 \(K = R^{-1} B^T P\)。
- 实现状态反馈控制 \(u = -K x\),确保系统稳定并最小化无限时域二次代价。
该方法广泛应用于机器人、航空航天和过程控制等领域,为线性系统提供了精确的最优控制解。