高斯过程分类(Gaussian Process Classification)的原理与预测过程
题目描述
高斯过程分类(GPC)是一种基于贝叶斯概率框架的非参数分类方法,适用于二分类或多分类问题。其核心思想是将高斯过程先验作用于隐函数,再通过逻辑或概率链接函数(如Sigmoid)将隐函数值映射为类别概率。与逻辑回归等参数化模型不同,GPC无需预设隐函数形式,而是通过核函数定义数据点间的协方差关系,直接对预测分布进行积分求解。题目要求:详细解释GPC的生成逻辑、隐函数推断原理,以及如何通过拉普拉斯近似或变分推断逼近后验预测分布。
解题过程
- 问题定义与隐函数模型
- 设二分类数据集 \(D = \{(\mathbf{x}_i, y_i)\}_{i=1}^n\),其中 \(y_i \in \{0, 1\}\)。引入隐函数 \(f(\mathbf{x})\) 服从高斯过程先验:
\[ f(\mathbf{x}) \sim \mathcal{GP}(m(\mathbf{x}), k(\mathbf{x}, \mathbf{x}')) \]
均值函数常设为 $ m(\mathbf{x}) = 0 $,核函数 $ k $(如RBF核)控制函数平滑度。
- 通过Sigmoid函数 \(\sigma(f) = 1/(1+e^{-f})\) 将 \(f(\mathbf{x})\) 映射为类别概率:
\[ P(y=1 \mid f(\mathbf{x})) = \sigma(f(\mathbf{x})) \]
- 后验分布推断的挑战
- 目标是在新输入 \(\mathbf{x}_*\) 预测概率 \(P(y_*=1 \mid D)\)。需计算隐函数后验:
\[ P(f_* \mid D) = \int P(f_* \mid \mathbf{f}) P(\mathbf{f} \mid D) \, d\mathbf{f} \]
其中 $ \mathbf{f} = [f(\mathbf{x}_1), \dots, f(\mathbf{x}_n)]^\top $。但因似然 $ P(y_i \mid f_i) $ 非高斯(伯努利分布),后验 $ P(\mathbf{f} \mid D) $ 无解析解。
- 拉普拉斯近似求解后验
- 步骤1:找到后验众数(最大后验估计)。通过优化求使后验概率最大的 \(\mathbf{\hat{f}}\):
\[ \mathbf{\hat{f}} = \arg\max_{\mathbf{f}} \left[ \log P(\mathbf{y} \mid \mathbf{f}) - \frac{1}{2} \mathbf{f}^\top K^{-1} \mathbf{f} \right] \]
其中 $ K $ 为训练点核矩阵,$ \log P(\mathbf{y} \mid \mathbf{f}) = \sum_i \left[ y_i \log \sigma(f_i) + (1-y_i) \log (1-\sigma(f_i)) \right] $。使用牛顿法迭代求解。
- 步骤2:在 \(\mathbf{\hat{f}}\) 处进行二阶泰勒展开,近似后验为高斯分布:
\[ P(\mathbf{f} \mid D) \approx \mathcal{N}(\mathbf{\hat{f}}, (K^{-1} + W)^{-1}) \]
其中 $ W $ 为Hessian矩阵,$ W = -\nabla^2 \log P(\mathbf{y} \mid \mathbf{f}) \mid_{\mathbf{f}=\mathbf{\hat{f}}} $,对于Logit链接函数,$ W $ 为对角阵且 $ W_{ii} = \sigma(\hat{f}_i)(1-\sigma(\hat{f}_i)) $。
- 预测分布计算
- 联合分布 \([\mathbf{f}, f_*]^\top\) 服从高斯分布,条件分布 \(P(f_* \mid \mathbf{f})\) 可由高斯过程条件化公式导出。代入拉普拉斯近似后的 \(P(\mathbf{f} \mid D)\),积分得:
\[ P(f_* \mid D) \approx \mathcal{N}(\mu_*, \sigma_*^2) \]
其中均值 $ \mu_* = \mathbf{k}_*^\top K^{-1} \mathbf{\hat{f}} $,方差 $ \sigma_*^2 = k_{**} - \mathbf{k}_*^\top (K + W^{-1})^{-1} \mathbf{k}_* $($ \mathbf{k}_* $ 为测试点与训练点的核向量)。
- 最终预测概率通过对 \(\sigma(f_*)\) 积分近似:
\[ P(y_*=1 \mid D) \approx \int \sigma(f_*) \mathcal{N}(f_* \mid \mu_*, \sigma_*^2) \, df_* \]
该积分无闭式解,但可通过Probit函数近似或蒙特卡洛采样计算。
- 多分类扩展与变分推断
- 对 \(C\)-类问题,引入 \(C\) 个隐函数 \(f_c(\mathbf{x})\),使用Softmax链接函数。后验近似更复杂,常采用变分推断,引入变分分布 \(q(\mathbf{f})\) 逼近真实后验,并通过最大化证据下界(ELBO)优化变分参数。
关键点
- GPC通过隐函数与非高斯似然的结合实现概率化分类,其计算核心在于后验近似技术。
- 拉普拉斯近似利用局部高斯假设简化计算,但需注意其在高维或多模态场景的局限性。