高斯过程分类(Gaussian Process Classification)的原理与预测过程
字数 2458
更新时间 2025-11-03 08:34:44

高斯过程分类(Gaussian Process Classification)的原理与预测过程

题目描述
高斯过程分类(GPC)是一种基于贝叶斯概率框架的非参数分类方法,适用于二分类或多分类问题。其核心思想是将高斯过程先验作用于隐函数,再通过逻辑或概率链接函数(如Sigmoid)将隐函数值映射为类别概率。与逻辑回归等参数化模型不同,GPC无需预设隐函数形式,而是通过核函数定义数据点间的协方差关系,直接对预测分布进行积分求解。题目要求:详细解释GPC的生成逻辑、隐函数推断原理,以及如何通过拉普拉斯近似或变分推断逼近后验预测分布。

解题过程

  1. 问题定义与隐函数模型
    • 设二分类数据集 \(D = \{(\mathbf{x}_i, y_i)\}_{i=1}^n\),其中 \(y_i \in \{0, 1\}\)。引入隐函数 \(f(\mathbf{x})\) 服从高斯过程先验:

\[ f(\mathbf{x}) \sim \mathcal{GP}(m(\mathbf{x}), k(\mathbf{x}, \mathbf{x}')) \]

 均值函数常设为 $ m(\mathbf{x}) = 0 $,核函数 $ k $(如RBF核)控制函数平滑度。  
  • 通过Sigmoid函数 \(\sigma(f) = 1/(1+e^{-f})\)\(f(\mathbf{x})\) 映射为类别概率:

\[ P(y=1 \mid f(\mathbf{x})) = \sigma(f(\mathbf{x})) \]

  1. 后验分布推断的挑战
    • 目标是在新输入 \(\mathbf{x}_*\) 预测概率 \(P(y_*=1 \mid D)\)。需计算隐函数后验:

\[ P(f_* \mid D) = \int P(f_* \mid \mathbf{f}) P(\mathbf{f} \mid D) \, d\mathbf{f} \]

 其中 $ \mathbf{f} = [f(\mathbf{x}_1), \dots, f(\mathbf{x}_n)]^\top $。但因似然 $ P(y_i \mid f_i) $ 非高斯(伯努利分布),后验 $ P(\mathbf{f} \mid D) $ 无解析解。  
  1. 拉普拉斯近似求解后验
    • 步骤1:找到后验众数(最大后验估计)。通过优化求使后验概率最大的 \(\mathbf{\hat{f}}\)

\[ \mathbf{\hat{f}} = \arg\max_{\mathbf{f}} \left[ \log P(\mathbf{y} \mid \mathbf{f}) - \frac{1}{2} \mathbf{f}^\top K^{-1} \mathbf{f} \right] \]

 其中 $ K $ 为训练点核矩阵,$ \log P(\mathbf{y} \mid \mathbf{f}) = \sum_i \left[ y_i \log \sigma(f_i) + (1-y_i) \log (1-\sigma(f_i)) \right] $。使用牛顿法迭代求解。  
  • 步骤2:在 \(\mathbf{\hat{f}}\) 处进行二阶泰勒展开,近似后验为高斯分布:

\[ P(\mathbf{f} \mid D) \approx \mathcal{N}(\mathbf{\hat{f}}, (K^{-1} + W)^{-1}) \]

 其中 $ W $ 为Hessian矩阵,$ W = -\nabla^2 \log P(\mathbf{y} \mid \mathbf{f}) \mid_{\mathbf{f}=\mathbf{\hat{f}}} $,对于Logit链接函数,$ W $ 为对角阵且 $ W_{ii} = \sigma(\hat{f}_i)(1-\sigma(\hat{f}_i)) $。  
  1. 预测分布计算
    • 联合分布 \([\mathbf{f}, f_*]^\top\) 服从高斯分布,条件分布 \(P(f_* \mid \mathbf{f})\) 可由高斯过程条件化公式导出。代入拉普拉斯近似后的 \(P(\mathbf{f} \mid D)\),积分得:

\[ P(f_* \mid D) \approx \mathcal{N}(\mu_*, \sigma_*^2) \]

 其中均值 $ \mu_* = \mathbf{k}_*^\top K^{-1} \mathbf{\hat{f}} $,方差 $ \sigma_*^2 = k_{**} - \mathbf{k}_*^\top (K + W^{-1})^{-1} \mathbf{k}_* $($ \mathbf{k}_* $ 为测试点与训练点的核向量)。  
  • 最终预测概率通过对 \(\sigma(f_*)\) 积分近似:

\[ P(y_*=1 \mid D) \approx \int \sigma(f_*) \mathcal{N}(f_* \mid \mu_*, \sigma_*^2) \, df_* \]

 该积分无闭式解,但可通过Probit函数近似或蒙特卡洛采样计算。
  1. 多分类扩展与变分推断
    • \(C\)-类问题,引入 \(C\) 个隐函数 \(f_c(\mathbf{x})\),使用Softmax链接函数。后验近似更复杂,常采用变分推断,引入变分分布 \(q(\mathbf{f})\) 逼近真实后验,并通过最大化证据下界(ELBO)优化变分参数。

关键点

  • GPC通过隐函数与非高斯似然的结合实现概率化分类,其计算核心在于后验近似技术。
  • 拉普拉斯近似利用局部高斯假设简化计算,但需注意其在高维或多模态场景的局限性。
 全屏