高斯过程回归(Gaussian Process Regression)的超参数优化方法
题目描述
高斯过程回归(GPR)是一种非参数贝叶斯模型,常用于回归任务。其核心是通过高斯过程先验定义函数分布,并利用观测数据更新后验分布。GPR的性能高度依赖核函数的选择及其超参数(如长度尺度、方差等)的设定。本题要求详解GPR超参数优化的原理与方法,包括边缘似然最大化的推导、梯度计算流程以及优化算法实现步骤。
解题过程
1. 高斯过程回归的基本设定
- 假设观测数据为 \(\{(x_i, y_i)\}_{i=1}^n\),其中 \(y_i = f(x_i) + \epsilon\),噪声 \(\epsilon \sim \mathcal{N}(0, \sigma_n^2)\)。
- 高斯过程先验定义为 \(f(\cdot) \sim \mathcal{GP}(m(\cdot), k(\cdot, \cdot))\),其中 \(m(\cdot)\) 为均值函数(常设为0),\(k(\cdot, \cdot)\) 为核函数(如径向基函数核)。
- 核函数超参数记为 \(\theta\)(例如RBF核的参数包括长度尺度 \(l\) 和信号方差 \(\sigma_f^2\)),与噪声方差 \(\sigma_n^2\) 共同构成待优化的超参数集合 \(\Theta = \{\theta, \sigma_n^2\}\)。
2. 超参数优化的目标函数:边缘似然
- 边缘似然(证据)表示数据在给定超参数下的概率:
\[ \log p(y | X, \Theta) = -\frac{1}{2} y^T (K + \sigma_n^2 I)^{-1} y - \frac{1}{2} \log |K + \sigma_n^2 I| - \frac{n}{2} \log 2\pi \]
其中 \(K\) 是核函数计算的协方差矩阵(\(K_{ij} = k(x_i, x_j; \theta)\))。
- 目标是通过最大化边缘似然(或最小化其负对数)找到最优超参数:
\[ \Theta^* = \arg\min_{\Theta} \left[ \frac{1}{2} y^T (K + \sigma_n^2 I)^{-1} y + \frac{1}{2} \log |K + \sigma_n^2 I| \right] \]
- 边缘似然的三项含义:
- 第一项(数据拟合项):衡量模型与数据的匹配程度。
- 第二项(复杂度惩罚项):避免过拟合(协方差矩阵行列式随模型复杂度增加而增大)。
- 第三项:常数项,不影响优化。
3. 梯度计算
- 为使用梯度下降法,需计算边缘似然对超参数 \(\Theta_j\) 的偏导。设 \(K_y = K + \sigma_n^2 I\),则:
\[ \frac{\partial}{\partial \Theta_j} \log p(y | X, \Theta) = \frac{1}{2} y^T K_y^{-1} \frac{\partial K_y}{\partial \Theta_j} K_y^{-1} y - \frac{1}{2} \text{tr}\left( K_y^{-1} \frac{\partial K_y}{\partial \Theta_j} \right) \]
- 推导要点:
- 利用矩阵求导公式 \(\frac{\partial K_y^{-1}}{\partial \Theta_j} = -K_y^{-1} \frac{\partial K_y}{\partial \Theta_j} K_y^{-1}\) 和 \(\frac{\partial \log |K_y|}{\partial \Theta_j} = \text{tr}(K_y^{-1} \frac{\partial K_y}{\partial \Theta_j})\)。
- 计算 \(\frac{\partial K_y}{\partial \Theta_j}\) 需根据核函数形式具体求解(例如RBF核对长度尺度 \(l\) 的偏导)。
4. 优化算法步骤
- 初始化超参数 \(\Theta^{(0)}\)(如使用启发式规则或随机采样)。
- 迭代更新(以梯度上升为例):
- 计算当前协方差矩阵 \(K_y\) 及其逆矩阵(通过Cholesky分解保证数值稳定性)。
- 计算边缘似然梯度 \(\nabla \log p(y | X, \Theta^{(t)})\)。
- 更新超参数:\(\Theta^{(t+1)} = \Theta^{(t)} + \eta \nabla \log p(y | X, \Theta^{(t)})\)(\(\eta\) 为学习率)。
- 终止条件:梯度范数小于阈值或达到最大迭代次数。
- 注意事项:
- 多起始点策略:避免陷入局部最优。
- 约束处理:超参数需为正数,可用指数参数化(如 \(l = \exp(\beta)\))将无约束优化转化为有约束问题。
6. 超参数优化的实际影响
- 长度尺度 \(l\):控制函数平滑度(\(l\) 过大导致欠拟合,过小导致过拟合)。
- 噪声方差 \(\sigma_n^2\):影响模型对噪声的敏感度。
- 优化后的超参数可使GPR在拟合数据与泛化能力间取得平衡。