核岭回归(Kernel Ridge Regression)算法的原理与计算过程
字数 1851 2025-10-31 22:46:15
核岭回归(Kernel Ridge Regression)算法的原理与计算过程
题目描述
核岭回归(Kernel Ridge Regression, KRR)是结合核技巧(Kernel Trick)与岭回归(Ridge Regression)的机器学习算法,用于解决非线性回归问题。给定训练数据集 \(\{(x_i, y_i)\}_{i=1}^n\)(其中 \(x_i \in \mathbb{R}^d\),\(y_i \in \mathbb{R}\)),KRR 的目标是学习一个非线性映射函数 \(f(x)\),使得预测值 \(f(x_i)\) 与真实值 \(y_i\) 的误差最小化,同时通过岭正则化避免过拟合。要求详细解释其数学原理、核函数的作用,以及如何通过矩阵运算求解模型参数。
解题过程
- 岭回归的线性基础
- 岭回归在线性回归的损失函数中加入 L2 正则化项,优化目标为:
\[ \min_{w \in \mathbb{R}^d} \sum_{i=1}^n (y_i - w^T x_i)^2 + \lambda \|w\|^2, \]
其中 $ \lambda > 0 $ 是正则化系数。其闭式解为:
\[ w = (X^T X + \lambda I)^{-1} X^T y, \]
这里 $ X \in \mathbb{R}^{n \times d} $ 是特征矩阵,$ y \in \mathbb{R}^n $ 是标签向量。
-
从线性到非线的核技巧
- 若数据非线性可分,可通过映射函数 \(\phi(x)\) 将原始特征 \(x\) 映射到高维空间,得到线性模型 \(f(x) = w^T \phi(x)\)。但直接计算 \(\phi(x)\) 可能维度极高(甚至无限维),导致计算不可行。
- 核技巧的核心思想是:避免显式计算 \(\phi(x)\),而是通过核函数 \(K(x_i, x_j) = \phi(x_i)^T \phi(x_j)\) 隐式实现高维空间的内积运算。常用核函数包括高斯核 \(K(x_i, x_j) = \exp(-\frac{\|x_i - x_j\|^2}{2\sigma^2})\)。
-
核岭回归的推导
- 将岭回归的解重写为 \(w = \sum_{i=1}^n \alpha_i \phi(x_i)\)(表示定理保证最优解在 \(\phi(x_i)\) 的张成空间中)。代入岭回归目标函数,得到关于 \(\alpha = [\alpha_1, \dots, \alpha_n]^T\) 的优化问题:
\[ \min_{\alpha} \|y - K\alpha\|^2 + \lambda \alpha^T K \alpha, \]
其中 $ K \in \mathbb{R}^{n \times n} $ 是核矩阵,满足 $ K_{ij} = K(x_i, x_j) $。
- 求导并令导数为零,得到解:
\[ \alpha = (K + \lambda I)^{-1} y. \]
预测时,对新样本 $ x_* $ 的输出为:
\[ f(x_*) = \sum_{i=1}^n \alpha_i K(x_*, x_i). \]
-
计算步骤与复杂度分析
- 步骤1:计算核矩阵 \(K\),需 \(O(n^2 d)\) 时间。
- 步骤2:求解线性方程组 \((K + \lambda I) \alpha = y\),通过Cholesky分解或共轭梯度法,复杂度为 \(O(n^3)\)。
- 步骤3:预测时需计算新样本与所有训练样本的核函数,复杂度 \(O(nd)\)。
- KRR 的瓶颈在于核矩阵求逆,适用于中小规模数据集。
-
与支持向量回归(SVR)的对比
- KRR 的解稠密(所有样本对 \(\alpha\) 有贡献),而 SVR 的解稀疏(仅支持向量有贡献);
- KRR 的求解更简单(闭式解),SVR 需优化凸二次规划问题;
- 两者均能处理非线性,但 KRR 对噪声更敏感(无稀疏性约束)。
关键点总结
- KRR 通过核函数隐式实现非线性映射,避免显式高维计算;
- 正则项 \(\lambda\) 控制模型复杂度,平衡拟合与泛化;
- 计算效率依赖核矩阵求逆,需注意样本规模对性能的影响。