核岭回归(Kernel Ridge Regression)的原理与计算过程
字数 1991 2025-11-13 03:14:24
核岭回归(Kernel Ridge Regression)的原理与计算过程
题目描述
核岭回归(Kernel Ridge Regression, KRR)是一种结合核技巧与岭回归正则化项的监督学习算法,用于解决非线性回归问题。其核心思想是通过核函数将原始特征映射到高维特征空间,并在该空间中执行岭回归,从而避免显式的高维计算。题目要求详细解释KRR的数学模型构建、核函数应用、正则化处理以及参数求解过程。
解题过程
- 问题建模与目标函数
- 给定训练集 \(\{ (x_i, y_i) \}_{i=1}^n\)(\(x_i \in \mathbb{R}^d\), \(y_i \in \mathbb{R}\)),KRR的目标是学习非线性映射 \(f(x) = \langle w, \phi(x) \rangle + b\),其中 \(\phi(\cdot)\) 是将输入映射到高维特征空间的函数。
- 通过岭回归的优化目标引入正则化项,防止过拟合:
\[ \min_{w,b} \sum_{i=1}^n (y_i - \langle w, \phi(x_i) \rangle - b)^2 + \lambda \|w\|^2 \]
这里 $ \lambda > 0 $ 是正则化系数,控制模型复杂度。
-
核技巧的应用
- 直接计算 \(\phi(x)\) 可能维度极高(例如无穷维),因此使用核函数 \(K(x_i, x_j) = \langle \phi(x_i), \phi(x_j) \rangle\) 隐式表达内积。常用核函数包括高斯核 \(K(x_i, x_j) = \exp(-\gamma \|x_i - x_j\|^2)\) 和多项式核。
- 根据表示定理,最优解 \(w\) 可表示为 \(w = \sum_{i=1}^n \alpha_i \phi(x_i)\),将问题转化为求解系数 \(\alpha = [\alpha_1, \dots, \alpha_n]^\top\)。
-
目标函数的重构
- 将 \(f(x) = \sum_{i=1}^n \alpha_i K(x, x_i) + b\) 代入原问题,并令 \(K\) 为核矩阵(\(K_{ij} = K(x_i, x_j)\)),目标函数改写为:
\[ \min_{\alpha,b} \|y - K\alpha - b\mathbf{1}_n\|^2 + \lambda \alpha^\top K\alpha \]
其中 $ \mathbf{1}_n $ 是长度为 $ n $ 的全1向量。
- 偏置项的处理
- 为简化计算,通常对数据去中心化(即预先减去均值),或通过扩展核矩阵隐式处理偏置。一种通用方法是将目标函数对 \(b\) 求偏导并令导数为零,得到 \(b = \frac{1}{n} \sum_{i=1}^n (y_i - \sum_{j=1}^n \alpha_j K(x_i, x_j))\)。
- 代入后可消去 \(b\),最终问题简化为:
\[ \min_{\alpha} \|y - \tilde{K}\alpha\|^2 + \lambda \alpha^\top K\alpha \]
其中 $ \tilde{K} $ 是中心化后的核矩阵(具体计算依赖中心化方法)。
- 闭式解的推导
- 对 \(\alpha\) 求导并令导数为零,得到线性方程组:
\[ (K + \lambda I_n) \alpha = y \]
若未中心化,方程为 $ (K + \lambda I_n) \alpha = y - b\mathbf{1}_n $,需与 $ b $ 的表达式联立求解。
- 最终解为 \(\alpha = (K + \lambda I_n)^{-1} y\)(假设数据已中心化)。
- 预测与新样本处理
- 对于新样本 \(x_{\text{new}}\),预测值为:
\[ f(x_{\text{new}}) = \sum_{i=1}^n \alpha_i K(x_{\text{new}}, x_i) + b \]
- 若训练时未中心化,需在预测时对 \(K(x_{\text{new}}, x_i)\) 进行相同的中心化处理。
关键点总结
- KRR通过核函数隐式实现非线性映射,结合岭回归正则化保证数值稳定性。
- 求解过程依赖核矩阵的逆,时间复杂度为 \(O(n^3)\),适用于中小规模数据。
- 超参数 \(\lambda\) 和核参数(如高斯核的 \(\gamma\))需通过交叉验证优化。