马尔可夫决策过程(MDP)的贝尔曼最优方程推导与策略改进定理
题目描述
在强化学习中,马尔可夫决策过程(MDP)的形式化求解常依赖于贝尔曼最优方程(Bellman Optimality Equation),它给出了最优值函数(包括状态值函数V和动作值函数Q)必须满足的自洽条件。本题要求详细解释贝尔曼最优方程的推导过程,并阐述策略改进定理(Policy Improvement Theorem)如何基于该方程证明策略迭代算法的收敛性。
解题过程
我们将逐步展开,从MDP的基本定义开始,引入回报与折扣,然后定义最优值函数,最终推导贝尔曼最优方程,并解释策略改进定理的证明思路。
步骤1:马尔可夫决策过程(MDP)基本设定
一个MDP通常由五元组 <S, A, P, R, γ> 定义:
- S:状态空间,所有可能状态的集合。
- A:动作空间,所有可能动作的集合(在给定状态s时,可选动作集可记为A(s))。
- P:状态转移概率,
P(s'|s, a)表示在状态s执行动作a后,转移到状态s'的概率。 - R:奖励函数,
R(s, a, s')表示在状态s执行动作a并转移到s'时获得的即时奖励(也可简化为期望奖励r(s, a)= Σ_{s'} P(s'|s, a) R(s, a, s'))。 - γ:折扣因子,0 ≤ γ ≤ 1,用于权衡未来奖励的当前价值。
步骤2:策略、回报与值函数
- 策略 π:一个从状态到动作概率分布的映射,
π(a|s)表示在状态s下选择动作a的概率。 - 累积折扣回报:从时刻t开始的累积回报定义为
G_t = R_{t+1} + γ R_{t+2} + γ^2 R_{t+3} + ...
其中R_{t+1}是t时刻执行动作后获得的即时奖励。 - 状态值函数 V^π(s):在策略π下,从状态s出发的期望回报,
V^π(s) = E_π[ G_t | S_t = s ]。 - 动作值函数 Q^π(s, a):在策略π下,从状态s执行动作a,之后遵循π的期望回报,
Q^π(s, a) = E_π[ G_t | S_t = s, A_t = a ]。
步骤3:贝尔曼期望方程
这是推导最优方程的基础。根据值函数的定义,可以建立递归关系:
- 对V^π(s):
V^π(s) = Σ_a π(a|s) Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ V^π(s') ]
即,当前状态值等于所有可能动作的期望(依策略π加权)的即时奖励加上下一状态的折扣值。 - 对Q^π(s, a):
Q^π(s, a) = Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ Σ_{a'} π(a'|s') Q^π(s', a') ]。
这两个方程称为贝尔曼期望方程,它们表达了当前值函数与下一状态值函数之间的递归关系。
步骤4:最优值函数的定义
强化学习的目标是找到最优策略π*,使得任意状态s下的值函数最大。最优状态值函数定义为:
V*(s) = max_π V^π(s),对所有s ∈ S。
类似地,最优动作值函数定义为:
Q*(s, a) = max_π Q^π(s, a)。
关键性质:存在一个确定性最优策略(对每个状态s,选择使Q*(s, a)最大的动作a),且该策略下V^{π*}(s) = V*(s)。
步骤5:贝尔曼最优方程的推导
推导的核心思想是:最优值函数必须满足自洽性,即如果遵循最优策略,那么值函数应该满足与贝尔曼期望方程类似的关系,但将策略选择替换为“选择最优动作”。
-
从V与Q的关系入手:
因为V*(s)是在状态s下能获得的最大期望回报,这等价于选择最优动作a,使得Q*(s, a)最大:V*(s) = max_a Q*(s, a) (1)注意:这里隐含假设了最优策略是确定性的,即对每个s,选择使Q*最大的那个a。
-
展开Q*(s, a)的定义:
根据Q函数的定义,Q*(s, a)表示在状态s执行动作a,之后一直遵循最优策略所能获得的期望回报。因此:Q*(s, a) = Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ V*(s') ] (2)解释:在(s, a)之后,环境转移到s',并获得即时奖励R(s, a, s'),从s'开始的最优回报是V*(s'),所以总回报的期望即如上式。
-
将(2)代入(1),得到关于V*的贝尔曼最优方程:
V*(s) = max_a Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ V*(s') ] (3)这个方程表明,最优状态值等于:对所有可能的动作a,计算其期望即时奖励加上下一状态最优值的折扣值,然后取最大值。
-
关于Q*的贝尔曼最优方程:
同样可以从定义出发,将(1)代入(2),用Q表示V:
由(1)有V*(s') = max_{a'} Q*(s', a'),代入(2)得到:Q*(s, a) = Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ max_{a'} Q*(s', a') ] (4)方程(3)和(4)即为贝尔曼最优方程。它们是递归方程,其解(即最优值函数)唯一存在(在γ<1或满足一定终止条件下)。
步骤6:策略改进定理与策略迭代
贝尔曼最优方程不仅定义了最优值函数,还为寻找最优策略提供了方法。策略改进定理是策略迭代算法收敛性的理论基础。
-
定理陈述:给定任意确定性策略π,定义一个新策略π',满足对每个状态s,
π'(s) = argmax_a Q^π(s, a)即π'在状态s下选择使当前π的动作值函数最大的动作。那么,对所有状态s,有
V^{π'}(s) ≥ V^π(s),且如果存在某个状态s使得严格不等式成立,则π'严格优于π。 -
证明思路:
- 由π'的构造,有
Q^π(s, π'(s)) ≥ V^π(s)(因为V^π(s)是π下动作值的加权平均,而π'取最大值)。 - 根据贝尔曼期望方程,可写出:
V^π(s) = Q^π(s, π(s))(对确定性策略π,因为只有一个动作概率为1)。
而由于π'(s)是使Q^π最大的动作,所以Q^π(s, π'(s)) ≥ Q^π(s, π(s)) = V^π(s)。 - 进一步,利用递归展开可得到
V^{π'}(s) ≥ V^π(s)对所有s成立。
- 由π'的构造,有
-
与贝尔曼最优方程的联系:
当策略改进不再产生变化,即对每个s,有π(s) = argmax_a Q^π(s, a)时,代入贝尔曼期望方程可得:V^π(s) = max_a Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ V^π(s') ]这正是V的贝尔曼最优方程(3)。因此,V^π满足贝尔曼最优方程,从而π就是最优策略π。
-
策略迭代算法:
基于策略改进定理,策略迭代算法交替进行以下两步直至收敛:- 策略评估:计算当前策略π的值函数V^π(通过解贝尔曼期望方程或迭代)。
- 策略改进:根据V^π构造新策略π',其中π'(s) = argmax_a Σ_{s'} P(s'|s, a) [ R(s, a, s') + γ V^π(s') ]。
由于每次迭代策略都会改进(或不劣化),且策略总数有限(在有限MDP中),算法必在有限步内收敛到最优策略。
总结
贝尔曼最优方程是MDP中最优值函数必须满足的自洽条件,它通过最大化操作将最优性体现在递归等式中。策略改进定理则提供了从任意策略出发,通过贪心地选择当前最优动作来逐步逼近最优策略的理论保证,两者共同构成了动态规划类算法(如值迭代、策略迭代)的基础。