马尔可夫决策过程(MDP)的贝尔曼最优方程推导与策略改进定理
字数 2908 2025-12-13 06:39:41

马尔可夫决策过程(MDP)的贝尔曼最优方程推导与策略改进定理

题目描述
在强化学习中,马尔可夫决策过程(MDP)的形式化求解常依赖于贝尔曼最优方程(Bellman Optimality Equation),它给出了最优值函数(包括状态值函数V和动作值函数Q)必须满足的自洽条件。本题要求详细解释贝尔曼最优方程的推导过程,并阐述策略改进定理(Policy Improvement Theorem)如何基于该方程证明策略迭代算法的收敛性。

解题过程
我们将逐步展开,从MDP的基本定义开始,引入回报与折扣,然后定义最优值函数,最终推导贝尔曼最优方程,并解释策略改进定理的证明思路。


步骤1:马尔可夫决策过程(MDP)基本设定
一个MDP通常由五元组 <S, A, P, R, γ> 定义:

  • S:状态空间,所有可能状态的集合。
  • A:动作空间,所有可能动作的集合(在给定状态s时,可选动作集可记为A(s))。
  • P:状态转移概率,P(s'|s, a) 表示在状态s执行动作a后,转移到状态s'的概率。
  • R:奖励函数,R(s, a, s') 表示在状态s执行动作a并转移到s'时获得的即时奖励(也可简化为期望奖励 r(s, a) = Σ_{s'} P(s'|s, a) R(s, a, s'))。
  • γ:折扣因子,0 ≤ γ ≤ 1,用于权衡未来奖励的当前价值。

步骤2:策略、回报与值函数

  • 策略 π:一个从状态到动作概率分布的映射,π(a|s) 表示在状态s下选择动作a的概率。
  • 累积折扣回报:从时刻t开始的累积回报定义为
    G_t = R_{t+1} + γ R_{t+2} + γ^2 R_{t+3} + ...
    其中 R_{t+1} 是t时刻执行动作后获得的即时奖励。
  • 状态值函数 V^π(s):在策略π下,从状态s出发的期望回报,
    V^π(s) = E_π[ G_t | S_t = s ]
  • 动作值函数 Q^π(s, a):在策略π下,从状态s执行动作a,之后遵循π的期望回报,
    Q^π(s, a) = E_π[ G_t | S_t = s, A_t = a ]

步骤3:贝尔曼期望方程
这是推导最优方程的基础。根据值函数的定义,可以建立递归关系:

  • 对V^π(s):
    V^π(s) = Σ_a π(a|s) Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ V^π(s') ]
    即,当前状态值等于所有可能动作的期望(依策略π加权)的即时奖励加上下一状态的折扣值。
  • 对Q^π(s, a):
    Q^π(s, a) = Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ Σ_{a'} π(a'|s') Q^π(s', a') ]

这两个方程称为贝尔曼期望方程,它们表达了当前值函数与下一状态值函数之间的递归关系。


步骤4:最优值函数的定义
强化学习的目标是找到最优策略π*,使得任意状态s下的值函数最大。最优状态值函数定义为:
V*(s) = max_π V^π(s),对所有s ∈ S。
类似地,最优动作值函数定义为:
Q*(s, a) = max_π Q^π(s, a)

关键性质:存在一个确定性最优策略(对每个状态s,选择使Q*(s, a)最大的动作a),且该策略下V^{π*}(s) = V*(s)。


步骤5:贝尔曼最优方程的推导
推导的核心思想是:最优值函数必须满足自洽性,即如果遵循最优策略,那么值函数应该满足与贝尔曼期望方程类似的关系,但将策略选择替换为“选择最优动作”。

  1. 从V与Q的关系入手
    因为V*(s)是在状态s下能获得的最大期望回报,这等价于选择最优动作a,使得Q*(s, a)最大:

    V*(s) = max_a Q*(s, a)                     (1)
    

    注意:这里隐含假设了最优策略是确定性的,即对每个s,选择使Q*最大的那个a。

  2. 展开Q*(s, a)的定义
    根据Q函数的定义,Q*(s, a) 表示在状态s执行动作a,之后一直遵循最优策略所能获得的期望回报。因此:

    Q*(s, a) = Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ V*(s') ]   (2)
    

    解释:在(s, a)之后,环境转移到s',并获得即时奖励R(s, a, s'),从s'开始的最优回报是V*(s'),所以总回报的期望即如上式。

  3. 将(2)代入(1),得到关于V*的贝尔曼最优方程

    V*(s) = max_a Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ V*(s') ]   (3)
    

    这个方程表明,最优状态值等于:对所有可能的动作a,计算其期望即时奖励加上下一状态最优值的折扣值,然后取最大值。

  4. 关于Q*的贝尔曼最优方程
    同样可以从定义出发,将(1)代入(2),用Q表示V
    由(1)有 V*(s') = max_{a'} Q*(s', a'),代入(2)得到:

    Q*(s, a) = Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ max_{a'} Q*(s', a') ]   (4)
    

    方程(3)和(4)即为贝尔曼最优方程。它们是递归方程,其解(即最优值函数)唯一存在(在γ<1或满足一定终止条件下)。


步骤6:策略改进定理与策略迭代
贝尔曼最优方程不仅定义了最优值函数,还为寻找最优策略提供了方法。策略改进定理是策略迭代算法收敛性的理论基础。

  • 定理陈述:给定任意确定性策略π,定义一个新策略π',满足对每个状态s,

    π'(s) = argmax_a Q^π(s, a)
    

    即π'在状态s下选择使当前π的动作值函数最大的动作。那么,对所有状态s,有 V^{π'}(s) ≥ V^π(s),且如果存在某个状态s使得严格不等式成立,则π'严格优于π。

  • 证明思路

    1. 由π'的构造,有 Q^π(s, π'(s)) ≥ V^π(s)(因为V^π(s)是π下动作值的加权平均,而π'取最大值)。
    2. 根据贝尔曼期望方程,可写出:
      V^π(s) = Q^π(s, π(s)) (对确定性策略π,因为只有一个动作概率为1)。
      而由于π'(s)是使Q^π最大的动作,所以 Q^π(s, π'(s)) ≥ Q^π(s, π(s)) = V^π(s)
    3. 进一步,利用递归展开可得到 V^{π'}(s) ≥ V^π(s) 对所有s成立。
  • 与贝尔曼最优方程的联系
    当策略改进不再产生变化,即对每个s,有 π(s) = argmax_a Q^π(s, a) 时,代入贝尔曼期望方程可得:

    V^π(s) = max_a Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ V^π(s') ]
    

    这正是V的贝尔曼最优方程(3)。因此,V^π满足贝尔曼最优方程,从而π就是最优策略π

  • 策略迭代算法
    基于策略改进定理,策略迭代算法交替进行以下两步直至收敛:

    1. 策略评估:计算当前策略π的值函数V^π(通过解贝尔曼期望方程或迭代)。
    2. 策略改进:根据V^π构造新策略π',其中π'(s) = argmax_a Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ V^π(s') ]。
      由于每次迭代策略都会改进(或不劣化),且策略总数有限(在有限MDP中),算法必在有限步内收敛到最优策略。

总结
贝尔曼最优方程是MDP中最优值函数必须满足的自洽条件,它通过最大化操作将最优性体现在递归等式中。策略改进定理则提供了从任意策略出发,通过贪心地选择当前最优动作来逐步逼近最优策略的理论保证,两者共同构成了动态规划类算法(如值迭代、策略迭代)的基础。

马尔可夫决策过程(MDP)的贝尔曼最优方程推导与策略改进定理 题目描述 在强化学习中,马尔可夫决策过程(MDP)的形式化求解常依赖于贝尔曼最优方程(Bellman Optimality Equation),它给出了最优值函数(包括状态值函数V 和动作值函数Q )必须满足的自洽条件。本题要求详细解释贝尔曼最优方程的推导过程,并阐述策略改进定理(Policy Improvement Theorem)如何基于该方程证明策略迭代算法的收敛性。 解题过程 我们将逐步展开,从MDP的基本定义开始,引入回报与折扣,然后定义最优值函数,最终推导贝尔曼最优方程,并解释策略改进定理的证明思路。 步骤1:马尔可夫决策过程(MDP)基本设定 一个MDP通常由五元组 <S, A, P, R, γ> 定义: S :状态空间,所有可能状态的集合。 A :动作空间,所有可能动作的集合(在给定状态s时,可选动作集可记为A(s))。 P :状态转移概率, P(s'|s, a) 表示在状态s执行动作a后,转移到状态s'的概率。 R :奖励函数, R(s, a, s') 表示在状态s执行动作a并转移到s'时获得的即时奖励(也可简化为期望奖励 r(s, a) = Σ_ {s'} P(s'|s, a) R(s, a, s'))。 γ :折扣因子,0 ≤ γ ≤ 1,用于权衡未来奖励的当前价值。 步骤2:策略、回报与值函数 策略 π :一个从状态到动作概率分布的映射, π(a|s) 表示在状态s下选择动作a的概率。 累积折扣回报 :从时刻t开始的累积回报定义为 G_t = R_{t+1} + γ R_{t+2} + γ^2 R_{t+3} + ... 其中 R_{t+1} 是t时刻执行动作后获得的即时奖励。 状态值函数 V^π(s) :在策略π下,从状态s出发的期望回报, V^π(s) = E_π[ G_t | S_t = s ] 。 动作值函数 Q^π(s, a) :在策略π下,从状态s执行动作a,之后遵循π的期望回报, Q^π(s, a) = E_π[ G_t | S_t = s, A_t = a ] 。 步骤3:贝尔曼期望方程 这是推导最优方程的基础。根据值函数的定义,可以建立递归关系: 对V^π(s): V^π(s) = Σ_a π(a|s) Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ V^π(s') ] 即,当前状态值等于所有可能动作的期望(依策略π加权)的即时奖励加上下一状态的折扣值。 对Q^π(s, a): Q^π(s, a) = Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ Σ_{a'} π(a'|s') Q^π(s', a') ] 。 这两个方程称为 贝尔曼期望方程 ,它们表达了当前值函数与下一状态值函数之间的递归关系。 步骤4:最优值函数的定义 强化学习的目标是找到最优策略π* ,使得任意状态s下的值函数最大。最优状态值函数定义为: V*(s) = max_π V^π(s) ,对所有s ∈ S。 类似地,最优动作值函数定义为: Q*(s, a) = max_π Q^π(s, a) 。 关键性质:存在一个确定性最优策略(对每个状态s,选择使Q* (s, a)最大的动作a),且该策略下V^{π* }(s) = V* (s)。 步骤5:贝尔曼最优方程的推导 推导的核心思想是:最优值函数必须满足 自洽性 ,即如果遵循最优策略,那么值函数应该满足与贝尔曼期望方程类似的关系,但将策略选择替换为“选择最优动作”。 从V 与Q 的关系入手 : 因为V* (s)是在状态s下能获得的最大期望回报,这等价于选择最优动作a,使得Q* (s, a)最大: 注意:这里隐含假设了最优策略是确定性的,即对每个s,选择使Q* 最大的那个a。 展开Q* (s, a)的定义 : 根据Q函数的定义, Q*(s, a) 表示在状态s执行动作a,之后 一直遵循最优策略 所能获得的期望回报。因此: 解释:在(s, a)之后,环境转移到s',并获得即时奖励R(s, a, s'),从s'开始的最优回报是V* (s'),所以总回报的期望即如上式。 将(2)代入(1) ,得到 关于V* 的贝尔曼最优方程 : 这个方程表明,最优状态值等于:对所有可能的动作a,计算其期望即时奖励加上下一状态最优值的折扣值,然后取最大值。 关于Q* 的贝尔曼最优方程 : 同样可以从定义出发,将(1)代入(2),用Q 表示V : 由(1)有 V*(s') = max_{a'} Q*(s', a') ,代入(2)得到: 方程(3)和(4)即为 贝尔曼最优方程 。它们是递归方程,其解(即最优值函数)唯一存在(在γ <1或满足一定终止条件下)。 步骤6:策略改进定理与策略迭代 贝尔曼最优方程不仅定义了最优值函数,还为寻找最优策略提供了方法。 策略改进定理 是策略迭代算法收敛性的理论基础。 定理陈述 :给定任意确定性策略π,定义一个新策略π',满足对每个状态s, 即π'在状态s下选择使当前π的动作值函数最大的动作。那么,对所有状态s,有 V^{π'}(s) ≥ V^π(s) ,且如果存在某个状态s使得严格不等式成立,则π'严格优于π。 证明思路 : 由π'的构造,有 Q^π(s, π'(s)) ≥ V^π(s) (因为V^π(s)是π下动作值的加权平均,而π'取最大值)。 根据贝尔曼期望方程,可写出: V^π(s) = Q^π(s, π(s)) (对确定性策略π,因为只有一个动作概率为1)。 而由于π'(s)是使Q^π最大的动作,所以 Q^π(s, π'(s)) ≥ Q^π(s, π(s)) = V^π(s) 。 进一步,利用递归展开可得到 V^{π'}(s) ≥ V^π(s) 对所有s成立。 与贝尔曼最优方程的联系 : 当策略改进不再产生变化,即对每个s,有 π(s) = argmax_a Q^π(s, a) 时,代入贝尔曼期望方程可得: 这正是V 的贝尔曼最优方程(3)。因此,V^π满足贝尔曼最优方程,从而π就是最优策略π 。 策略迭代算法 : 基于策略改进定理,策略迭代算法交替进行以下两步直至收敛: 策略评估 :计算当前策略π的值函数V^π(通过解贝尔曼期望方程或迭代)。 策略改进 :根据V^π构造新策略π',其中π'(s) = argmax_ a Σ_ {s'} P(s'|s, a) [ R(s, a, s') + γ V^π(s') ]。 由于每次迭代策略都会改进(或不劣化),且策略总数有限(在有限MDP中),算法必在有限步内收敛到最优策略。 总结 贝尔曼最优方程是MDP中最优值函数必须满足的自洽条件,它通过最大化操作将最优性体现在递归等式中。策略改进定理则提供了从任意策略出发,通过贪心地选择当前最优动作来逐步逼近最优策略的理论保证,两者共同构成了动态规划类算法(如值迭代、策略迭代)的基础。