核岭回归(Kernel Ridge Regression)的核技巧应用与优化过程
题目描述
核岭回归(Kernel Ridge Regression, KRR)是结合岭回归(Ridge Regression)的正则化思想和核技巧(Kernel Trick)的机器学习算法。它通过核函数将输入数据映射到高维特征空间,并在该空间中求解线性岭回归问题,从而处理非线性关系。核心挑战在于:如何在高维空间中避免显式特征映射的计算开销,并有效控制过拟合。
解题过程
- 问题形式化
- 给定训练集 \(\{(x_i, y_i)\}_{i=1}^n\),其中 \(x_i \in \mathbb{R}^d\),\(y_i \in \mathbb{R}\)。
- 岭回归的目标函数为:
\[ \min_{w \in \mathbb{R}^d} \sum_{i=1}^n (y_i - w^T x_i)^2 + \lambda \|w\|^2, \]
其中 $\lambda > 0$ 是正则化系数。
- 为引入非线性,通过特征映射 \(\phi(x)\) 将输入映射到高维空间,问题变为:
\[ \min_{w \in \mathcal{H}} \sum_{i=1}^n (y_i - w^T \phi(x_i))^2 + \lambda \|w\|^2, \]
其中 $\mathcal{H}$ 是特征空间。直接求解需计算高维向量 $w$ 和 $\phi(x_i)$,计算成本高。
- 核技巧应用
- 根据表示定理(Representer Theorem),最优解 \(w^*\) 可表示为样本的线性组合:
\[ w^* = \sum_{j=1}^n \alpha_j \phi(x_j). \]
- 代入目标函数,将内积 \(\phi(x_i)^T \phi(x_j)\) 替换为核函数 \(K(x_i, x_j)\):
\[ \min_{\alpha \in \mathbb{R}^n} \sum_{i=1}^n \left( y_i - \sum_{j=1}^n \alpha_j K(x_i, x_j) \right)^2 + \lambda \sum_{i,j=1}^n \alpha_i \alpha_j K(x_i, x_j). \]
- 定义核矩阵 \(K \in \mathbb{R}^{n \times n}\),其中 \(K_{ij} = K(x_i, x_j)\),目标函数简化为:
\[ \min_{\alpha} \|y - K\alpha\|^2 + \lambda \alpha^T K \alpha. \]
此形式仅依赖核矩阵,无需显式计算 $\phi(x)$。
- 优化求解
- 目标函数是凸函数,求梯度并令其为零:
\[ \frac{\partial}{\partial \alpha} \left( (y - K\alpha)^T(y - K\alpha) + \lambda \alpha^T K \alpha \right) = 0. \]
- 展开后得:
\[ -2K^T(y - K\alpha) + 2\lambda K \alpha = 0. \]
由于 $K$ 对称,化简为:
\[ (K + \lambda I) \alpha = y. \]
- 解线性方程组:
\[ \alpha = (K + \lambda I)^{-1} y. \]
矩阵 $K + \lambda I$ 正定,保证解唯一稳定。
- 预测与新样本处理
- 对新样本 \(x\) 的预测为:
\[ f(x) = \sum_{j=1}^n \alpha_j K(x, x_j) = K_x^T \alpha, \]
其中 $K_x = [K(x, x_1), \dots, K(x, x_n)]^T$。
- 核函数需满足Mercer条件(如高斯核、多项式核),确保核矩阵半正定。
- 复杂度与正则化作用
- 计算瓶颈在于求逆 \((K + \lambda I)^{-1}\),复杂度 \(O(n^3)\),适用于中小数据集。
- 正则化项 \(\lambda \alpha^T K \alpha\) 等价于 \(\lambda \|w\|^2\),抑制权重过大,防止过拟合。
总结
核岭回归通过核技巧隐式学习非线性模式,兼顾岭回归的稳定性与核方法的灵活性。其核心是将高维问题转化为核矩阵运算,适用于非线性回归任务,但需注意样本量较大时的计算开销。