核岭回归（Kernel Ridge Regression）的数学推导与优化过程

字数 1844 2025-12-02 00:42:02

核岭回归（Kernel Ridge Regression）的数学推导与优化过程

题目描述
核岭回归（KRR）是结合核技巧与岭回归的机器学习算法，用于解决非线性回归问题。其核心思想是通过核函数将原始低维数据映射到高维特征空间，并在高维空间中施加L2正则化（岭回归）来避免过拟合。题目要求详细推导KRR的闭式解，并解释其计算优化过程。

解题过程

问题形式化
- 给定训练集 \(\{(x_i, y_i)\}_{i=1}^n\)，其中 \(x_i \in \mathbb{R}^d\)，\(y_i \in \mathbb{R}\)。
- 目标：学习一个非线性函数 \(f(x)\)，使得预测误差最小，同时控制模型复杂度。
- 使用核函数 \(\kappa(x_i, x_j) = \langle \phi(x_i), \phi(x_j) \rangle\) 隐式映射数据到高维空间，其中 \(\phi(\cdot)\) 是特征映射。
岭回归的优化目标
- 在高维特征空间中，岭回归的损失函数为：

\[ J(w) = \frac{1}{2} \sum_{i=1}^n (y_i - w^T \phi(x_i))^2 + \frac{\lambda}{2} \|w\|^2 \]

 其中 $\lambda > 0$ 是正则化系数，控制模型复杂度。

表示定理与核化
- 根据表示定理，最优解 \(w^*\) 可表示为样本特征映射的线性组合：

\[ w = \sum_{i=1}^n \alpha_i \phi(x_i) \]

将 \(w\) 代入预测函数 \(f(x)\)：

\[ f(x) = w^T \phi(x) = \sum_{i=1}^n \alpha_i \kappa(x_i, x) \]

 此时问题转化为求解系数 $\alpha = [\alpha_1, \dots, \alpha_n]^T$。

矩阵形式的重构
- 定义核矩阵 \(K \in \mathbb{R}^{n \times n}\)，其中 \(K_{ij} = \kappa(x_i, x_j)\)。
- 训练集的预测值向量为 \(f = K \alpha\)，岭回归目标函数可重写为：

\[ J(\alpha) = \frac{1}{2} \|y - K\alpha\|^2 + \frac{\lambda}{2} \alpha^T K \alpha \]

 注意：$\|w\|^2 = w^T w = \alpha^T K \alpha$（由核矩阵半正定性保证）。

闭式解推导
- 对 \(J(\alpha)\) 求梯度并令其为零：

\[ \frac{\partial J(\alpha)}{\partial \alpha} = -K^T (y - K\alpha) + \lambda K \alpha = 0 \]

 由于 $K$ 对称，化简为：

\[ -K y + K^2 \alpha + \lambda K \alpha = 0 \]

 两边左乘 $K^{-1}$（假设 $K$ 可逆）：

\[ -y + (K + \lambda I) \alpha = 0 \]

 解得：

\[ \alpha = (K + \lambda I)^{-1} y \]

 **关键点**：即使 $K$ 不可逆，加入 $\lambda I$ 也可保证矩阵可逆。

预测与计算复杂度
- 新样本 \(x\) 的预测值为：

\[ f(x) = \sum_{i=1}^n \alpha_i \kappa(x_i, x) = k_x^T (K + \lambda I)^{-1} y \]

 其中 $k_x = [\kappa(x_1, x), \dots, \kappa(x_n, x)]^T$。

计算瓶颈：求逆操作复杂度为 \(O(n^3)\)，适用于中小规模数据。

与支持向量回归（SVR）的对比
- KRR得到稠密解（所有样本均参与预测），而SVR通过损失函数得到稀疏解（仅支持向量有效）。
- KRR的闭式解无需迭代优化，但计算逆矩阵时需注意数值稳定性（如使用Cholesky分解）。

总结
核岭回归通过核技巧处理非线性关系，并利用岭回归的正则化避免过拟合。其核心步骤包括：核化映射、表示定理应用、目标函数重构、闭式解推导。最终解依赖于核矩阵与正则化参数，平衡拟合能力与泛化性能。

核岭回归（Kernel Ridge Regression）的数学推导与优化过程题目描述核岭回归（KRR）是结合核技巧与岭回归的机器学习算法，用于解决非线性回归问题。其核心思想是通过核函数将原始低维数据映射到高维特征空间，并在高维空间中施加L2正则化（岭回归）来避免过拟合。题目要求详细推导KRR的闭式解，并解释其计算优化过程。解题过程问题形式化给定训练集 \(\{(x_ i, y_ i)\}_ {i=1}^n\)，其中 \(x_ i \in \mathbb{R}^d\)，\(y_ i \in \mathbb{R}\)。目标：学习一个非线性函数 \(f(x)\)，使得预测误差最小，同时控制模型复杂度。使用核函数 \(\kappa(x_ i, x_ j) = \langle \phi(x_ i), \phi(x_ j) \rangle\) 隐式映射数据到高维空间，其中 \(\phi(\cdot)\) 是特征映射。岭回归的优化目标在高维特征空间中，岭回归的损失函数为： \[ J(w) = \frac{1}{2} \sum_ {i=1}^n (y_ i - w^T \phi(x_ i))^2 + \frac{\lambda}{2} \|w\|^2 \] 其中 \(\lambda > 0\) 是正则化系数，控制模型复杂度。表示定理与核化根据表示定理，最优解 \(w^* \) 可表示为样本特征映射的线性组合： \[ w = \sum_ {i=1}^n \alpha_ i \phi(x_ i) \] 将 \(w\) 代入预测函数 \(f(x)\)： \[ f(x) = w^T \phi(x) = \sum_ {i=1}^n \alpha_ i \kappa(x_ i, x) \] 此时问题转化为求解系数 \(\alpha = [ \alpha_ 1, \dots, \alpha_ n ]^T\)。矩阵形式的重构定义核矩阵 \(K \in \mathbb{R}^{n \times n}\)，其中 \(K_ {ij} = \kappa(x_ i, x_ j)\)。训练集的预测值向量为 \(f = K \alpha\)，岭回归目标函数可重写为： \[ J(\alpha) = \frac{1}{2} \|y - K\alpha\|^2 + \frac{\lambda}{2} \alpha^T K \alpha \] 注意：\(\|w\|^2 = w^T w = \alpha^T K \alpha\)（由核矩阵半正定性保证）。闭式解推导对 \(J(\alpha)\) 求梯度并令其为零： \[ \frac{\partial J(\alpha)}{\partial \alpha} = -K^T (y - K\alpha) + \lambda K \alpha = 0 \] 由于 \(K\) 对称，化简为： \[ -K y + K^2 \alpha + \lambda K \alpha = 0 \] 两边左乘 \(K^{-1}\)（假设 \(K\) 可逆）： \[ -y + (K + \lambda I) \alpha = 0 \] 解得： \[ \alpha = (K + \lambda I)^{-1} y \] 关键点：即使 \(K\) 不可逆，加入 \(\lambda I\) 也可保证矩阵可逆。预测与计算复杂度新样本 \(x\) 的预测值为： \[ f(x) = \sum_ {i=1}^n \alpha_ i \kappa(x_ i, x) = k_ x^T (K + \lambda I)^{-1} y \] 其中 \(k_ x = [ \kappa(x_ 1, x), \dots, \kappa(x_ n, x) ]^T\)。计算瓶颈：求逆操作复杂度为 \(O(n^3)\)，适用于中小规模数据。与支持向量回归（SVR）的对比 KRR得到稠密解（所有样本均参与预测），而SVR通过损失函数得到稀疏解（仅支持向量有效）。 KRR的闭式解无需迭代优化，但计算逆矩阵时需注意数值稳定性（如使用Cholesky分解）。总结核岭回归通过核技巧处理非线性关系，并利用岭回归的正则化避免过拟合。其核心步骤包括：核化映射、表示定理应用、目标函数重构、闭式解推导。最终解依赖于核矩阵与正则化参数，平衡拟合能力与泛化性能。