高斯过程分类（Gaussian Process Classification）的原理与预测过程

字数 2458

更新时间 2025-11-03 08:34:44

高斯过程分类（Gaussian Process Classification）的原理与预测过程

题目描述
高斯过程分类（GPC）是一种基于贝叶斯概率框架的非参数分类方法，适用于二分类或多分类问题。其核心思想是将高斯过程先验作用于隐函数，再通过逻辑或概率链接函数（如Sigmoid）将隐函数值映射为类别概率。与逻辑回归等参数化模型不同，GPC无需预设隐函数形式，而是通过核函数定义数据点间的协方差关系，直接对预测分布进行积分求解。题目要求：详细解释GPC的生成逻辑、隐函数推断原理，以及如何通过拉普拉斯近似或变分推断逼近后验预测分布。

解题过程

问题定义与隐函数模型
- 设二分类数据集 \(D = \{(\mathbf{x}_i, y_i)\}_{i=1}^n\)，其中 \(y_i \in \{0, 1\}\)。引入隐函数 \(f(\mathbf{x})\) 服从高斯过程先验：

\[ f(\mathbf{x}) \sim \mathcal{GP}(m(\mathbf{x}), k(\mathbf{x}, \mathbf{x}')) \]

 均值函数常设为 $ m(\mathbf{x}) = 0 $，核函数 $ k $（如RBF核）控制函数平滑度。

通过Sigmoid函数 \(\sigma(f) = 1/(1+e^{-f})\) 将 \(f(\mathbf{x})\) 映射为类别概率：

\[ P(y=1 \mid f(\mathbf{x})) = \sigma(f(\mathbf{x})) \]

后验分布推断的挑战
- 目标是在新输入 \(\mathbf{x}_*\) 预测概率 \(P(y_*=1 \mid D)\)。需计算隐函数后验：

\[ P(f_* \mid D) = \int P(f_* \mid \mathbf{f}) P(\mathbf{f} \mid D) \, d\mathbf{f} \]

 其中 $ \mathbf{f} = [f(\mathbf{x}_1), \dots, f(\mathbf{x}_n)]^\top $。但因似然 $ P(y_i \mid f_i) $ 非高斯（伯努利分布），后验 $ P(\mathbf{f} \mid D) $ 无解析解。

拉普拉斯近似求解后验
- 步骤1：找到后验众数（最大后验估计）。通过优化求使后验概率最大的 \(\mathbf{\hat{f}}\)：

\[ \mathbf{\hat{f}} = \arg\max_{\mathbf{f}} \left[ \log P(\mathbf{y} \mid \mathbf{f}) - \frac{1}{2} \mathbf{f}^\top K^{-1} \mathbf{f} \right] \]

 其中 $ K $ 为训练点核矩阵，$ \log P(\mathbf{y} \mid \mathbf{f}) = \sum_i \left[ y_i \log \sigma(f_i) + (1-y_i) \log (1-\sigma(f_i)) \right] $。使用牛顿法迭代求解。

步骤2：在 \(\mathbf{\hat{f}}\) 处进行二阶泰勒展开，近似后验为高斯分布：

\[ P(\mathbf{f} \mid D) \approx \mathcal{N}(\mathbf{\hat{f}}, (K^{-1} + W)^{-1}) \]

 其中 $ W $ 为Hessian矩阵，$ W = -\nabla^2 \log P(\mathbf{y} \mid \mathbf{f}) \mid_{\mathbf{f}=\mathbf{\hat{f}}} $，对于Logit链接函数，$ W $ 为对角阵且 $ W_{ii} = \sigma(\hat{f}_i)(1-\sigma(\hat{f}_i)) $。

预测分布计算
- 联合分布 \([\mathbf{f}, f_*]^\top\) 服从高斯分布，条件分布 \(P(f_* \mid \mathbf{f})\) 可由高斯过程条件化公式导出。代入拉普拉斯近似后的 \(P(\mathbf{f} \mid D)\)，积分得：

\[ P(f_* \mid D) \approx \mathcal{N}(\mu_*, \sigma_*^2) \]

 其中均值 $ \mu_* = \mathbf{k}_*^\top K^{-1} \mathbf{\hat{f}} $，方差 $ \sigma_*^2 = k_{**} - \mathbf{k}_*^\top (K + W^{-1})^{-1} \mathbf{k}_* $（$ \mathbf{k}_* $ 为测试点与训练点的核向量）。

最终预测概率通过对 \(\sigma(f_*)\) 积分近似：

\[ P(y_*=1 \mid D) \approx \int \sigma(f_*) \mathcal{N}(f_* \mid \mu_*, \sigma_*^2) \, df_* \]

 该积分无闭式解，但可通过Probit函数近似或蒙特卡洛采样计算。

多分类扩展与变分推断
- 对 \(C\)-类问题，引入 \(C\) 个隐函数 \(f_c(\mathbf{x})\)，使用Softmax链接函数。后验近似更复杂，常采用变分推断，引入变分分布 \(q(\mathbf{f})\) 逼近真实后验，并通过最大化证据下界（ELBO）优化变分参数。

关键点

GPC通过隐函数与非高斯似然的结合实现概率化分类，其计算核心在于后验近似技术。
拉普拉斯近似利用局部高斯假设简化计算，但需注意其在高维或多模态场景的局限性。

全屏