核岭回归(Kernel Ridge Regression)的核技巧应用与优化过程
题目描述
核岭回归(KRR)是一种结合核技巧与岭回归正则化的非线性回归算法。其核心问题为:给定训练集 \(\{(x_i, y_i)\}_{i=1}^n\)(\(x_i \in \mathbb{R}^d, y_i \in \mathbb{R}\)),如何学习一个非线性映射 \(f(x)\),使得模型在未见数据上具有良好泛化能力?KRR通过核函数隐式将输入空间映射到高维特征空间,并在该空间中求解带L2正则化的线性回归问题,从而避免显式高维计算。
解题过程
- 岭回归的基本形式
岭回归在线性回归的损失函数中加入L2正则项,其优化目标为:
\[ \min_{w \in \mathbb{R}^d} \sum_{i=1}^n (y_i - w^T x_i)^2 + \lambda \|w\|^2 \]
其中 \(\lambda\) 为正则化系数。通过求导令梯度为零,得到闭式解:
\[ w = (X^T X + \lambda I)^{-1} X^T y \]
这里 \(X \in \mathbb{R}^{n \times d}\) 为设计矩阵,\(y \in \mathbb{R}^n\) 为标签向量。
- 核技巧的引入
为处理非线性关系,KRR使用核函数 \(k(x_i, x_j) = \phi(x_i)^T \phi(x_j)\),其中 \(\phi(\cdot)\) 为特征映射。根据表示定理,最优解可表示为样本的线性组合:
\[ f(x) = \sum_{i=1}^n \alpha_i k(x, x_i) \]
代入岭回归目标函数,将原问题转化为关于系数 \(\alpha \in \mathbb{R}^n\) 的优化:
\[ \min_{\alpha} \|y - K\alpha\|^2 + \lambda \alpha^T K \alpha \]
其中 \(K \in \mathbb{R}^{n \times n}\) 为核矩阵,满足 \(K_{ij} = k(x_i, x_j)\)。
- 闭式解的推导
对目标函数求导并令导数为零:
\[ \frac{\partial}{\partial \alpha} \left[(y - K\alpha)^T (y - K\alpha) + \lambda \alpha^T K \alpha\right] = 0 \]
展开后得到:
\[ -2K^T (y - K\alpha) + 2\lambda K \alpha = 0 \]
由于 \(K\) 对称,化简为:
\[ (K + \lambda I) \alpha = y \]
解得:
\[ \alpha = (K + \lambda I)^{-1} y \]
此解需核矩阵 \(K\) 可逆(由正则项保证)。
-
核函数的选择与计算
- 常用核函数包括高斯核 \(k(x, y) = \exp(-\gamma \|x - y\|^2)\)、多项式核等。
- 核矩阵 \(K\) 需对称半正定,以确保优化问题凸性。
- 预测新样本 \(x^*\) 时,计算 \(f(x^*) = \sum_{i=1}^n \alpha_i k(x^*, x_i)\)。
-
复杂度与优化策略
- 直接求逆的复杂度为 \(O(n^3)\),适用于中小规模数据。
- 大规模数据下可采用迭代法(如共轭梯度法)或核矩阵近似技术(如Nyström方法)。
- 超参数 \((\lambda, \gamma)\) 通过交叉验证选择。
关键点总结
- KRR通过核技巧实现非线性拟合,同时利用L2正则控制过拟合。
- 解的形式仅依赖核矩阵,避免显式高维特征计算。
- 计算效率受样本量限制,需结合数值优化技术扩展至大规模数据。