核岭回归(Kernel Ridge Regression)的数学推导与优化过程
字数 1844 2025-12-02 00:42:02

核岭回归(Kernel Ridge Regression)的数学推导与优化过程

题目描述
核岭回归(KRR)是结合核技巧与岭回归的机器学习算法,用于解决非线性回归问题。其核心思想是通过核函数将原始低维数据映射到高维特征空间,并在高维空间中施加L2正则化(岭回归)来避免过拟合。题目要求详细推导KRR的闭式解,并解释其计算优化过程。

解题过程

  1. 问题形式化

    • 给定训练集 \(\{(x_i, y_i)\}_{i=1}^n\),其中 \(x_i \in \mathbb{R}^d\)\(y_i \in \mathbb{R}\)
    • 目标:学习一个非线性函数 \(f(x)\),使得预测误差最小,同时控制模型复杂度。
    • 使用核函数 \(\kappa(x_i, x_j) = \langle \phi(x_i), \phi(x_j) \rangle\) 隐式映射数据到高维空间,其中 \(\phi(\cdot)\) 是特征映射。
  2. 岭回归的优化目标

    • 在高维特征空间中,岭回归的损失函数为:

\[ J(w) = \frac{1}{2} \sum_{i=1}^n (y_i - w^T \phi(x_i))^2 + \frac{\lambda}{2} \|w\|^2 \]

 其中 $\lambda > 0$ 是正则化系数,控制模型复杂度。
  1. 表示定理与核化
    • 根据表示定理,最优解 \(w^*\) 可表示为样本特征映射的线性组合:

\[ w = \sum_{i=1}^n \alpha_i \phi(x_i) \]

  • \(w\) 代入预测函数 \(f(x)\)

\[ f(x) = w^T \phi(x) = \sum_{i=1}^n \alpha_i \kappa(x_i, x) \]

 此时问题转化为求解系数 $\alpha = [\alpha_1, \dots, \alpha_n]^T$。
  1. 矩阵形式的重构
    • 定义核矩阵 \(K \in \mathbb{R}^{n \times n}\),其中 \(K_{ij} = \kappa(x_i, x_j)\)
    • 训练集的预测值向量为 \(f = K \alpha\),岭回归目标函数可重写为:

\[ J(\alpha) = \frac{1}{2} \|y - K\alpha\|^2 + \frac{\lambda}{2} \alpha^T K \alpha \]

 注意:$\|w\|^2 = w^T w = \alpha^T K \alpha$(由核矩阵半正定性保证)。
  1. 闭式解推导
    • \(J(\alpha)\) 求梯度并令其为零:

\[ \frac{\partial J(\alpha)}{\partial \alpha} = -K^T (y - K\alpha) + \lambda K \alpha = 0 \]

 由于 $K$ 对称,化简为:  

\[ -K y + K^2 \alpha + \lambda K \alpha = 0 \]

 两边左乘 $K^{-1}$(假设 $K$ 可逆):  

\[ -y + (K + \lambda I) \alpha = 0 \]

 解得:  

\[ \alpha = (K + \lambda I)^{-1} y \]

 **关键点**:即使 $K$ 不可逆,加入 $\lambda I$ 也可保证矩阵可逆。
  1. 预测与计算复杂度
    • 新样本 \(x\) 的预测值为:

\[ f(x) = \sum_{i=1}^n \alpha_i \kappa(x_i, x) = k_x^T (K + \lambda I)^{-1} y \]

 其中 $k_x = [\kappa(x_1, x), \dots, \kappa(x_n, x)]^T$。  
  • 计算瓶颈:求逆操作复杂度为 \(O(n^3)\),适用于中小规模数据。
  1. 与支持向量回归(SVR)的对比
    • KRR得到稠密解(所有样本均参与预测),而SVR通过损失函数得到稀疏解(仅支持向量有效)。
    • KRR的闭式解无需迭代优化,但计算逆矩阵时需注意数值稳定性(如使用Cholesky分解)。

总结
核岭回归通过核技巧处理非线性关系,并利用岭回归的正则化避免过拟合。其核心步骤包括:核化映射、表示定理应用、目标函数重构、闭式解推导。最终解依赖于核矩阵与正则化参数,平衡拟合能力与泛化性能。

核岭回归(Kernel Ridge Regression)的数学推导与优化过程 题目描述 核岭回归(KRR)是结合核技巧与岭回归的机器学习算法,用于解决非线性回归问题。其核心思想是通过核函数将原始低维数据映射到高维特征空间,并在高维空间中施加L2正则化(岭回归)来避免过拟合。题目要求详细推导KRR的闭式解,并解释其计算优化过程。 解题过程 问题形式化 给定训练集 \(\{(x_ i, y_ i)\}_ {i=1}^n\),其中 \(x_ i \in \mathbb{R}^d\),\(y_ i \in \mathbb{R}\)。 目标:学习一个非线性函数 \(f(x)\),使得预测误差最小,同时控制模型复杂度。 使用核函数 \(\kappa(x_ i, x_ j) = \langle \phi(x_ i), \phi(x_ j) \rangle\) 隐式映射数据到高维空间,其中 \(\phi(\cdot)\) 是特征映射。 岭回归的优化目标 在高维特征空间中,岭回归的损失函数为: \[ J(w) = \frac{1}{2} \sum_ {i=1}^n (y_ i - w^T \phi(x_ i))^2 + \frac{\lambda}{2} \|w\|^2 \] 其中 \(\lambda > 0\) 是正则化系数,控制模型复杂度。 表示定理与核化 根据表示定理,最优解 \(w^* \) 可表示为样本特征映射的线性组合: \[ w = \sum_ {i=1}^n \alpha_ i \phi(x_ i) \] 将 \(w\) 代入预测函数 \(f(x)\): \[ f(x) = w^T \phi(x) = \sum_ {i=1}^n \alpha_ i \kappa(x_ i, x) \] 此时问题转化为求解系数 \(\alpha = [ \alpha_ 1, \dots, \alpha_ n ]^T\)。 矩阵形式的重构 定义核矩阵 \(K \in \mathbb{R}^{n \times n}\),其中 \(K_ {ij} = \kappa(x_ i, x_ j)\)。 训练集的预测值向量为 \(f = K \alpha\),岭回归目标函数可重写为: \[ J(\alpha) = \frac{1}{2} \|y - K\alpha\|^2 + \frac{\lambda}{2} \alpha^T K \alpha \] 注意:\(\|w\|^2 = w^T w = \alpha^T K \alpha\)(由核矩阵半正定性保证)。 闭式解推导 对 \(J(\alpha)\) 求梯度并令其为零: \[ \frac{\partial J(\alpha)}{\partial \alpha} = -K^T (y - K\alpha) + \lambda K \alpha = 0 \] 由于 \(K\) 对称,化简为: \[ -K y + K^2 \alpha + \lambda K \alpha = 0 \] 两边左乘 \(K^{-1}\)(假设 \(K\) 可逆): \[ -y + (K + \lambda I) \alpha = 0 \] 解得: \[ \alpha = (K + \lambda I)^{-1} y \] 关键点 :即使 \(K\) 不可逆,加入 \(\lambda I\) 也可保证矩阵可逆。 预测与计算复杂度 新样本 \(x\) 的预测值为: \[ f(x) = \sum_ {i=1}^n \alpha_ i \kappa(x_ i, x) = k_ x^T (K + \lambda I)^{-1} y \] 其中 \(k_ x = [ \kappa(x_ 1, x), \dots, \kappa(x_ n, x) ]^T\)。 计算瓶颈:求逆操作复杂度为 \(O(n^3)\),适用于中小规模数据。 与支持向量回归(SVR)的对比 KRR得到稠密解(所有样本均参与预测),而SVR通过损失函数得到稀疏解(仅支持向量有效)。 KRR的闭式解无需迭代优化,但计算逆矩阵时需注意数值稳定性(如使用Cholesky分解)。 总结 核岭回归通过核技巧处理非线性关系,并利用岭回归的正则化避免过拟合。其核心步骤包括:核化映射、表示定理应用、目标函数重构、闭式解推导。最终解依赖于核矩阵与正则化参数,平衡拟合能力与泛化性能。