核岭回归(Kernel Ridge Regression)的数学推导与优化过程
题目描述
核岭回归(KRR)是结合核技巧与岭回归的机器学习算法,用于解决非线性回归问题。其核心思想是通过核函数将原始低维数据映射到高维特征空间,并在高维空间中施加L2正则化(岭回归)来避免过拟合。题目要求详细推导KRR的闭式解,并解释其计算优化过程。
解题过程
-
问题形式化
- 给定训练集 \(\{(x_i, y_i)\}_{i=1}^n\),其中 \(x_i \in \mathbb{R}^d\),\(y_i \in \mathbb{R}\)。
- 目标:学习一个非线性函数 \(f(x)\),使得预测误差最小,同时控制模型复杂度。
- 使用核函数 \(\kappa(x_i, x_j) = \langle \phi(x_i), \phi(x_j) \rangle\) 隐式映射数据到高维空间,其中 \(\phi(\cdot)\) 是特征映射。
-
岭回归的优化目标
- 在高维特征空间中,岭回归的损失函数为:
\[ J(w) = \frac{1}{2} \sum_{i=1}^n (y_i - w^T \phi(x_i))^2 + \frac{\lambda}{2} \|w\|^2 \]
其中 $\lambda > 0$ 是正则化系数,控制模型复杂度。
- 表示定理与核化
- 根据表示定理,最优解 \(w^*\) 可表示为样本特征映射的线性组合:
\[ w = \sum_{i=1}^n \alpha_i \phi(x_i) \]
- 将 \(w\) 代入预测函数 \(f(x)\):
\[ f(x) = w^T \phi(x) = \sum_{i=1}^n \alpha_i \kappa(x_i, x) \]
此时问题转化为求解系数 $\alpha = [\alpha_1, \dots, \alpha_n]^T$。
- 矩阵形式的重构
- 定义核矩阵 \(K \in \mathbb{R}^{n \times n}\),其中 \(K_{ij} = \kappa(x_i, x_j)\)。
- 训练集的预测值向量为 \(f = K \alpha\),岭回归目标函数可重写为:
\[ J(\alpha) = \frac{1}{2} \|y - K\alpha\|^2 + \frac{\lambda}{2} \alpha^T K \alpha \]
注意:$\|w\|^2 = w^T w = \alpha^T K \alpha$(由核矩阵半正定性保证)。
- 闭式解推导
- 对 \(J(\alpha)\) 求梯度并令其为零:
\[ \frac{\partial J(\alpha)}{\partial \alpha} = -K^T (y - K\alpha) + \lambda K \alpha = 0 \]
由于 $K$ 对称,化简为:
\[ -K y + K^2 \alpha + \lambda K \alpha = 0 \]
两边左乘 $K^{-1}$(假设 $K$ 可逆):
\[ -y + (K + \lambda I) \alpha = 0 \]
解得:
\[ \alpha = (K + \lambda I)^{-1} y \]
**关键点**:即使 $K$ 不可逆,加入 $\lambda I$ 也可保证矩阵可逆。
- 预测与计算复杂度
- 新样本 \(x\) 的预测值为:
\[ f(x) = \sum_{i=1}^n \alpha_i \kappa(x_i, x) = k_x^T (K + \lambda I)^{-1} y \]
其中 $k_x = [\kappa(x_1, x), \dots, \kappa(x_n, x)]^T$。
- 计算瓶颈:求逆操作复杂度为 \(O(n^3)\),适用于中小规模数据。
- 与支持向量回归(SVR)的对比
- KRR得到稠密解(所有样本均参与预测),而SVR通过损失函数得到稀疏解(仅支持向量有效)。
- KRR的闭式解无需迭代优化,但计算逆矩阵时需注意数值稳定性(如使用Cholesky分解)。
总结
核岭回归通过核技巧处理非线性关系,并利用岭回归的正则化避免过拟合。其核心步骤包括:核化映射、表示定理应用、目标函数重构、闭式解推导。最终解依赖于核矩阵与正则化参数,平衡拟合能力与泛化性能。