线性二次型调节器(Linear Quadratic Regulator, LQR)的无限时域最优控制求解与黎卡提方程
字数 3716 2025-12-11 04:21:02

线性二次型调节器(Linear Quadratic Regulator, LQR)的无限时域最优控制求解与黎卡提方程

题目描述

线性二次型调节器(LQR)是一种经典的最优控制方法,用于解决线性动态系统在无限时域上的状态调节问题。给定一个线性时不变系统

\[\dot{x}(t) = A x(t) + B u(t) \]

其中 \(x(t)\) 是状态向量,\(u(t)\) 是控制输入向量,\(A\)\(B\) 是系统矩阵。目标是最小化无限时域上的二次型代价函数

\[J = \int_0^\infty \left( x(t)^T Q x(t) + u(t)^T R u(t) \right) dt \]

其中 \(Q\) 是半正定状态权重矩阵,\(R\) 是正定控制权重矩阵。问题要求找到最优控制律 \(u^*(t) = -K x(t)\),使得代价 \(J\) 最小。这个过程涉及求解代数黎卡提方程(Algebraic Riccati Equation, ARE)以获得最优反馈增益矩阵 \(K\)。我们将详细推导LQR的求解步骤,并解释黎卡提方程的来源与求解方法。

解题过程

步骤1:问题形式化

考虑连续时间线性系统:

\[\dot{x}(t) = A x(t) + B u(t), \quad x(0) = x_0 \]

代价函数为:

\[J = \int_0^\infty \left( x(t)^T Q x(t) + u(t)^T R u(t) \right) dt \]

目标:找到控制输入 \(u(t)\) 的函数形式,以最小化 \(J\)。由于系统是线性的、代价是二次的,且时域无限,最优控制律是状态的线性反馈,即 \(u^*(t) = -K x(t)\),其中 \(K\) 是常数增益矩阵。

步骤2:哈密顿-雅可比-贝尔曼(HJB)方程推导

对于无限时域问题,我们使用动态规划方法。定义值函数 \(V(x)\) 为从初始状态 \(x\) 出发的最小代价:

\[V(x) = \min_{u(\cdot)} \int_0^\infty \left( x(\tau)^T Q x(\tau) + u(\tau)^T R u(\tau) \right) d\tau \]

假设 \(V(x)\) 是光滑的,且满足哈密顿-雅可比-贝尔曼方程:

\[\min_{u} \left( x^T Q x + u^T R u + \frac{\partial V}{\partial x}^T (A x + B u) \right) = 0 \]

这里 \(\frac{\partial V}{\partial x}\) 是值函数对状态向量的梯度(列向量)。

步骤3:求解最优控制输入

对HJB方程中的 \(u\) 求最小化。令括号内的表达式为 \(H(x, u)\)

\[H(x, u) = x^T Q x + u^T R u + \frac{\partial V}{\partial x}^T (A x + B u) \]

\(u\) 求导并设为零:

\[\frac{\partial H}{\partial u} = 2 R u + B^T \frac{\partial V}{\partial x} = 0 \]

因此最优控制为:

\[u^* = -\frac{1}{2} R^{-1} B^T \frac{\partial V}{\partial x} \]

由于我们期望 \(u^* = -K x\),可推测 \(\frac{\partial V}{\partial x}\)\(x\) 线性相关。

步骤4:猜测值函数形式并代入

对于二次型代价和线性系统,值函数应为状态的二次型形式:

\[V(x) = x^T P x \]

其中 \(P\) 是一个对称正定矩阵(待求)。那么梯度为:

\[\frac{\partial V}{\partial x} = 2 P x \]

代入最优控制表达式:

\[u^* = -\frac{1}{2} R^{-1} B^T (2 P x) = -R^{-1} B^T P x \]

因此,最优反馈增益矩阵为:

\[K = R^{-1} B^T P \]

步骤5:推导黎卡提方程

\(V(x) = x^T P x\)\(u^* = -K x\) 代入HJB方程:

\[x^T Q x + (K x)^T R (K x) + (2 P x)^T (A x + B (-K x)) = 0 \]

展开各项:

  1. \(x^T Q x\)
  2. 控制代价项:\(x^T K^T R K x\)
  3. 动态项:\(2 x^T P (A x - B K x) = 2 x^T P (A - B K) x\)
    由于 \(x^T M x = 0\) 对所有 \(x\) 成立意味着 \(M + M^T = 0\),但这里我们假设对称性,直接令矩阵系数为零。

将所有项合并为二次型 \(x^T (\cdots) x = 0\),得到:

\[Q + K^T R K + 2 P (A - B K) = 0 \]

代入 \(K = R^{-1} B^T P\)

\[Q + (R^{-1} B^T P)^T R (R^{-1} B^T P) + 2 P (A - B R^{-1} B^T P) = 0 \]

简化第二项:\((R^{-1} B^T P)^T R = P B R^{-1} R = P B\),因此 \(P B R^{-1} B^T P\)
于是方程变为:

\[Q + P B R^{-1} B^T P + 2 P A - 2 P B R^{-1} B^T P = 0 \]

合并 \(P B R^{-1} B^T P\) 项:

\[Q + 2 P A - P B R^{-1} B^T P = 0 \]

整理为对称形式(通常写成 \(A^T P + P A\) 而非 \(2 P A\))。注意到 \(P\) 对称,所以 \(2 P A = P A + A^T P\)。验证:对任意对称 \(P\),有 \((P A)^T = A^T P\),因此 \(P A + A^T P\) 是对称的,且等于 \(2 P A\)\(P A\) 对称,但一般情况下更常用 \(P A + A^T P\)。标准推导中,从HJB出发直接得到:

\[A^T P + P A - P B R^{-1} B^T P + Q = 0 \]

这就是连续时间无限时域LQR的代数黎卡提方程(ARE)。

步骤6:求解代数黎卡提方程(ARE)

ARE是一个非线性矩阵方程,通常通过数值方法求解。常见方法包括:

  • 哈密顿矩阵法:构造哈密顿矩阵:

\[ H = \begin{bmatrix} A & -B R^{-1} B^T \\ -Q & -A^T \end{bmatrix} \]

求解 \(H\) 的特征值和特征向量。若 \(H\) 没有虚轴上的特征值,且满足某些可稳性和可检性条件,则存在唯一正半定解 \(P\)。选取 \(H\) 的稳定不变子空间(特征值实部小于零对应的特征向量),可解出 \(P\)

  • 迭代法:如牛顿法或Riccati微分方程的稳态求解。

一旦得到 \(P\),最优增益为 \(K = R^{-1} B^T P\),最优控制律为 \(u^*(t) = -K x(t)\)

步骤7:闭环系统稳定性

在最优控制下,闭环系统动态为:

\[\dot{x} = (A - B K) x = (A - B R^{-1} B^T P) x \]

可以证明,若 \((A, B)\) 可稳且 \((A, Q^{1/2})\) 可检,则 \(A - B K\) 是 Hurwitz 的(所有特征值实部为负),保证系统稳定。

步骤8:最小代价计算

最优代价值为:

\[J^* = x_0^T P x_0 \]

其中 \(x_0\) 是初始状态。

总结

线性二次型调节器(LQR)的求解核心在于:

  1. 通过动态规划建立HJB方程。
  2. 假设值函数为二次型 \(V(x) = x^T P x\)
  3. 推导出代数黎卡提方程 \(A^T P + P A - P B R^{-1} B^T P + Q = 0\)
  4. 数值求解 \(P\) 得到最优反馈增益 \(K = R^{-1} B^T P\)
  5. 实现状态反馈控制 \(u = -K x\),确保系统稳定并最小化无限时域二次代价。

该方法广泛应用于机器人、航空航天和过程控制等领域,为线性系统提供了精确的最优控制解。

线性二次型调节器(Linear Quadratic Regulator, LQR)的无限时域最优控制求解与黎卡提方程 题目描述 线性二次型调节器(LQR)是一种经典的最优控制方法,用于解决线性动态系统在无限时域上的状态调节问题。给定一个线性时不变系统 \[ \dot{x}(t) = A x(t) + B u(t) \] 其中 \( x(t) \) 是状态向量,\( u(t) \) 是控制输入向量,\( A \) 和 \( B \) 是系统矩阵。目标是最小化无限时域上的二次型代价函数 \[ J = \int_ 0^\infty \left( x(t)^T Q x(t) + u(t)^T R u(t) \right) dt \] 其中 \( Q \) 是半正定状态权重矩阵,\( R \) 是正定控制权重矩阵。问题要求找到最优控制律 \( u^* (t) = -K x(t) \),使得代价 \( J \) 最小。这个过程涉及求解代数黎卡提方程(Algebraic Riccati Equation, ARE)以获得最优反馈增益矩阵 \( K \)。我们将详细推导LQR的求解步骤,并解释黎卡提方程的来源与求解方法。 解题过程 步骤1:问题形式化 考虑连续时间线性系统: \[ \dot{x}(t) = A x(t) + B u(t), \quad x(0) = x_ 0 \] 代价函数为: \[ J = \int_ 0^\infty \left( x(t)^T Q x(t) + u(t)^T R u(t) \right) dt \] 目标:找到控制输入 \( u(t) \) 的函数形式,以最小化 \( J \)。由于系统是线性的、代价是二次的,且时域无限,最优控制律是状态的线性反馈,即 \( u^* (t) = -K x(t) \),其中 \( K \) 是常数增益矩阵。 步骤2:哈密顿-雅可比-贝尔曼(HJB)方程推导 对于无限时域问题,我们使用动态规划方法。定义值函数 \( V(x) \) 为从初始状态 \( x \) 出发的最小代价: \[ V(x) = \min_ {u(\cdot)} \int_ 0^\infty \left( x(\tau)^T Q x(\tau) + u(\tau)^T R u(\tau) \right) d\tau \] 假设 \( V(x) \) 是光滑的,且满足哈密顿-雅可比-贝尔曼方程: \[ \min_ {u} \left( x^T Q x + u^T R u + \frac{\partial V}{\partial x}^T (A x + B u) \right) = 0 \] 这里 \( \frac{\partial V}{\partial x} \) 是值函数对状态向量的梯度(列向量)。 步骤3:求解最优控制输入 对HJB方程中的 \( u \) 求最小化。令括号内的表达式为 \( H(x, u) \): \[ H(x, u) = x^T Q x + u^T R u + \frac{\partial V}{\partial x}^T (A x + B u) \] 对 \( u \) 求导并设为零: \[ \frac{\partial H}{\partial u} = 2 R u + B^T \frac{\partial V}{\partial x} = 0 \] 因此最优控制为: \[ u^* = -\frac{1}{2} R^{-1} B^T \frac{\partial V}{\partial x} \] 由于我们期望 \( u^* = -K x \),可推测 \( \frac{\partial V}{\partial x} \) 与 \( x \) 线性相关。 步骤4:猜测值函数形式并代入 对于二次型代价和线性系统,值函数应为状态的二次型形式: \[ V(x) = x^T P x \] 其中 \( P \) 是一个对称正定矩阵(待求)。那么梯度为: \[ \frac{\partial V}{\partial x} = 2 P x \] 代入最优控制表达式: \[ u^* = -\frac{1}{2} R^{-1} B^T (2 P x) = -R^{-1} B^T P x \] 因此,最优反馈增益矩阵为: \[ K = R^{-1} B^T P \] 步骤5:推导黎卡提方程 将 \( V(x) = x^T P x \) 和 \( u^* = -K x \) 代入HJB方程: \[ x^T Q x + (K x)^T R (K x) + (2 P x)^T (A x + B (-K x)) = 0 \] 展开各项: \( x^T Q x \)。 控制代价项:\( x^T K^T R K x \)。 动态项:\( 2 x^T P (A x - B K x) = 2 x^T P (A - B K) x \)。 由于 \( x^T M x = 0 \) 对所有 \( x \) 成立意味着 \( M + M^T = 0 \),但这里我们假设对称性,直接令矩阵系数为零。 将所有项合并为二次型 \( x^T (\cdots) x = 0 \),得到: \[ Q + K^T R K + 2 P (A - B K) = 0 \] 代入 \( K = R^{-1} B^T P \): \[ Q + (R^{-1} B^T P)^T R (R^{-1} B^T P) + 2 P (A - B R^{-1} B^T P) = 0 \] 简化第二项:\( (R^{-1} B^T P)^T R = P B R^{-1} R = P B \),因此 \( P B R^{-1} B^T P \)。 于是方程变为: \[ Q + P B R^{-1} B^T P + 2 P A - 2 P B R^{-1} B^T P = 0 \] 合并 \( P B R^{-1} B^T P \) 项: \[ Q + 2 P A - P B R^{-1} B^T P = 0 \] 整理为对称形式(通常写成 \( A^T P + P A \) 而非 \( 2 P A \))。注意到 \( P \) 对称,所以 \( 2 P A = P A + A^T P \)。验证:对任意对称 \( P \),有 \( (P A)^T = A^T P \),因此 \( P A + A^T P \) 是对称的,且等于 \( 2 P A \) 当 \( P A \) 对称,但一般情况下更常用 \( P A + A^T P \)。标准推导中,从HJB出发直接得到: \[ A^T P + P A - P B R^{-1} B^T P + Q = 0 \] 这就是连续时间无限时域LQR的代数黎卡提方程(ARE)。 步骤6:求解代数黎卡提方程(ARE) ARE是一个非线性矩阵方程,通常通过数值方法求解。常见方法包括: 哈密顿矩阵法 :构造哈密顿矩阵: \[ H = \begin{bmatrix} A & -B R^{-1} B^T \\ -Q & -A^T \end{bmatrix} \] 求解 \( H \) 的特征值和特征向量。若 \( H \) 没有虚轴上的特征值,且满足某些可稳性和可检性条件,则存在唯一正半定解 \( P \)。选取 \( H \) 的稳定不变子空间(特征值实部小于零对应的特征向量),可解出 \( P \)。 迭代法 :如牛顿法或Riccati微分方程的稳态求解。 一旦得到 \( P \),最优增益为 \( K = R^{-1} B^T P \),最优控制律为 \( u^* (t) = -K x(t) \)。 步骤7:闭环系统稳定性 在最优控制下,闭环系统动态为: \[ \dot{x} = (A - B K) x = (A - B R^{-1} B^T P) x \] 可以证明,若 \( (A, B) \) 可稳且 \( (A, Q^{1/2}) \) 可检,则 \( A - B K \) 是 Hurwitz 的(所有特征值实部为负),保证系统稳定。 步骤8:最小代价计算 最优代价值为: \[ J^* = x_ 0^T P x_ 0 \] 其中 \( x_ 0 \) 是初始状态。 总结 线性二次型调节器(LQR)的求解核心在于: 通过动态规划建立HJB方程。 假设值函数为二次型 \( V(x) = x^T P x \)。 推导出代数黎卡提方程 \( A^T P + P A - P B R^{-1} B^T P + Q = 0 \)。 数值求解 \( P \) 得到最优反馈增益 \( K = R^{-1} B^T P \)。 实现状态反馈控制 \( u = -K x \),确保系统稳定并最小化无限时域二次代价。 该方法广泛应用于机器人、航空航天和过程控制等领域,为线性系统提供了精确的最优控制解。