马尔可夫随机场(Markov Random Field, MRF)的吉布斯采样(Gibbs Sampling)推断过程
题目描述
马尔可夫随机场是一种基于无向图的概率图模型,用于表示一组随机变量之间的依赖关系。当需要从MRF的联合概率分布中进行采样,或推断某些变量的后验分布时,解析计算往往非常困难,因为涉及高维积分或求和。吉布斯采样是一种马尔可夫链蒙特卡洛方法,通过构建一条马尔可夫链,使其平稳分布恰好等于目标MRF的联合分布,从而通过迭代采样来近似复杂的概率分布。本题要求详细解释在MRF背景下,吉布斯采样的核心思想、条件概率计算以及具体的迭代采样步骤。
解题过程
1. 马尔可夫随机场(MRF)的基本设定
首先,我们有一个无向图 \(G = (V, E)\),其中 \(V\) 是节点集合,每个节点 \(i \in V\) 对应一个随机变量 \(X_i\)。\(E\) 是边集合,表示变量之间的直接依赖关系。MRF的联合概率分布由势函数(potential functions)定义,通常可以写成吉布斯分布的形式:
\[P(\mathbf{x}) = \frac{1}{Z} \prod_{c \in C} \psi_c(\mathbf{x}_c) \]
其中:
- \(\mathbf{x} = (x_1, x_2, ..., x_n)\) 是变量的一个配置(取值向量)。
- \(C\) 是图中所有极大团(maximal cliques)的集合。
- \(\psi_c(\mathbf{x}_c)\) 是定义在团 \(c\) 上的非负势函数,它衡量该团中变量取特定值 \(\mathbf{x}_c\) 的“亲和度”。
- \(Z = \sum_{\mathbf{x}} \prod_{c \in C} \psi_c(\mathbf{x}_c)\) 是配分函数(归一化常数),确保概率和为1。计算 \(Z\) 通常涉及对所有可能配置求和,在变量多或取值空间大时难以直接计算。
2. 吉布斯采样的核心思想
吉布斯采样的目标是生成一系列样本 \(\mathbf{x}^{(0)}, \mathbf{x}^{(1)}, ..., \mathbf{x}^{(T)}\),使得当 \(t\) 足够大时,样本 \(\mathbf{x}^{(t)}\) 的分布近似等于目标联合分布 \(P(\mathbf{x})\)。其核心是依次对每个变量进行采样,采样时固定其他所有变量的当前值,只根据该变量的条件分布(即给定其邻居时该变量的分布)来抽取新值。
这种逐变量更新的方式基于马尔可夫性质:在MRF中,一个变量 \(X_i\) 的条件分布只依赖于其邻居节点(即与 \(i\) 直接相连的节点),与更远的节点无关。这一性质使得条件概率的计算变得可行,因为只涉及局部变量。
3. 条件概率的计算
假设我们要更新变量 \(X_i\),记其邻居集合为 \(N(i)\)。给定所有其他变量 \(\mathbf{x}_{-i}\) 的当前值,\(X_i\) 的条件概率为:
\[P(x_i | \mathbf{x}_{-i}) = \frac{P(x_i, \mathbf{x}_{-i})}{\sum_{x_i'} P(x_i', \mathbf{x}_{-i})} \]
由于 \(P(\mathbf{x}) \propto \prod_{c \in C} \psi_c(\mathbf{x}_c)\),分子和分母都包含与 \(X_i\) 无关的势函数乘积,这些公共因子在计算条件概率时会抵消。因此,实际上只需要考虑那些包含 \(X_i\) 的团 \(c\) 即可。设 \(C_i\) 为所有包含节点 \(i\) 的团的集合,则条件概率可简化为:
\[P(x_i | \mathbf{x}_{-i}) \propto \prod_{c \in C_i} \psi_c(\mathbf{x}_c) \]
这里 \(\mathbf{x}_c\) 中除了 \(X_i\) 以外的变量都固定为当前值。计算出该条件分布后(可能需要归一化),就可以从中采样一个新的 \(x_i\)。
示例:假设一个简单的MRF,三个变量 \(X_1, X_2, X_3\) 构成一条链:\(X_1 - X_2 - X_3\)。势函数定义为:
- 团 \(\{1,2\}\):\(\psi_{12}(x_1, x_2)\)
- 团 \(\{2,3\}\):\(\psi_{23}(x_2, x_3)\)
则联合分布 \(P(x_1, x_2, x_3) \propto \psi_{12}(x_1, x_2) \cdot \psi_{23}(x_2, x_3)\)。
要采样 \(X_2\),固定 \(x_1\) 和 \(x_3\),条件概率为:
\[P(x_2 | x_1, x_3) \propto \psi_{12}(x_1, x_2) \cdot \psi_{23}(x_2, x_3) \]
对 \(x_2\) 的所有可能取值计算右侧乘积,然后归一化,即可得到条件分布,进而采样。
4. 吉布斯采样算法的详细步骤
输入:
- MRF的图结构 \(G\) 和势函数 \(\psi_c\)。
- 初始状态 \(\mathbf{x}^{(0)}\)(可随机初始化或指定)。
- 迭代次数 \(T\)(包括预热期和采样期)。
算法流程:
- 初始化:设置 \(t = 0\),选择初始配置 \(\mathbf{x}^{(0)} = (x_1^{(0)}, x_2^{(0)}, ..., x_n^{(0)})\)。
- 迭代循环:对于 \(t = 1, 2, ..., T\):
a. 顺序或随机选择一个变量索引 \(i\)(通常按固定顺序,如 \(1,2,...,n\) 循环)。
b. 计算变量 \(X_i\) 的条件概率分布:
\[ P\left(x_i | x_1^{(t)}, ..., x_{i-1}^{(t)}, x_{i+1}^{(t-1)}, ..., x_n^{(t-1)}\right) \]
注意:当按顺序更新时,已经更新过的变量用最新值(上标 $ t $),未更新的变量用旧值(上标 $ t-1 $)。这是吉布斯采样的标准做法,确保了每条马尔可夫链的平稳分布为目标分布。
c. 从该条件分布中采样一个新值 \(x_i^{(t)}\)。
d. 保持其他变量不变:\(x_j^{(t)} = x_j^{(t-1)}\) 对于所有 \(j \neq i\)。
3. 输出:经过一定的预热期(burn-in)后,收集后续的样本 \(\{\mathbf{x}^{(B+1)}, \mathbf{x}^{(B+2)}, ..., \mathbf{x}^{(T)}\}\) 作为从 \(P(\mathbf{x})\) 中采得的近似样本。
注意:
- 预热期:初始的若干次迭代(如前 \(B\) 次)可能尚未收敛到平稳分布,应丢弃这些样本。
- 采样间隔:连续样本之间可能存在自相关性(autocorrelation)。为了获得近似独立的样本,有时会每隔 \(k\) 次迭代才保留一个样本(即thinning)。
- 收敛诊断:实践中需通过多个链的轨迹、自相关图等方法判断采样是否已收敛。
5. 算法背后的理论保证
吉布斯采样构建的马尔可夫链满足:
- 不可约性(Irreducibility):从任何状态出发,都能以正概率到达任何其他状态(通常要求条件分布处处非零)。
- 非周期性(Aperiodicity):通常成立。
- 细致平稳条件(Detailed Balance):可以证明,按上述方式更新,链的平稳分布正是目标联合分布 \(P(\mathbf{x})\)。
因此,由马尔可夫链的收敛定理,当 \(t \to \infty\) 时,样本分布会收敛到 \(P(\mathbf{x})\)。
6. 应用与扩展
- 近似推断:通过收集的样本,可以计算变量的边际分布、期望等统计量。例如,\(P(x_i)\) 可通过样本中 \(x_i\) 取值的频率来近似。
- 贝叶斯网络:对于有向图模型,也可通过将其转化为MRF(道德图)后应用吉布斯采样。
- 限制:当变量高度相关时,吉布斯采样可能混合很慢(需要很多次迭代才能探索整个空间)。此时可结合其他MCMC方法(如Metropolis-Hastings)进行改进。
总结
吉布斯采样是一种在MRF中进行近似推断的强大工具。它利用MRF的局部马尔可夫性质,将高维联合分布的采样分解为一系列一维条件采样,从而避免了直接计算复杂的配分函数。通过迭代更新每个变量,最终生成的样本序列可用于近似目标分布的各种统计特性。理解其条件概率计算和迭代步骤是掌握该算法的关键。