核岭回归(Kernel Ridge Regression)算法的原理与计算过程
字数 4375 2025-10-31 18:33:05

核岭回归(Kernel Ridge Regression)算法的原理与计算过程

题目描述
核岭回归(Kernel Ridge Regression, KRR)是一种结合了岭回归(L2正则化线性回归)和核技巧(Kernel Trick)的回归算法。它能够有效地处理非线性关系,同时通过正则化避免过拟合。我们的任务是理解KRR如何将线性模型扩展到非线性场景,并掌握其从模型构建到求解的完整计算过程。

解题过程

  1. 问题回顾:岭回归
    岭回归是线性回归的L2正则化形式。对于一个线性模型 \(f(\mathbf{x}) = \mathbf{w}^T \mathbf{x} + b\),其目标是最小化带有L2惩罚项的损失函数:

\[ \min_{\mathbf{w}, b} \sum_{i=1}^{n} (y_i - \mathbf{w}^T \mathbf{x}_i - b)^2 + \alpha \|\mathbf{w}\|_2^2 \]

其中,\(\alpha\) 是控制正则化强度的超参数。其解析解可以通过求解正规方程得到。然而,标准的岭回归只能学习输入特征 \(\mathbf{x}\) 的线性组合。

  1. 引入核技巧处理非线性
    当数据中存在非线性关系时,我们希望将原始特征 \(\mathbf{x} \in \mathbb{R}^d\) 映射到一个更高维(甚至无限维)的特征空间 \(\mathcal{H}\) 中,即 \(\phi(\mathbf{x})\)。在这个高维空间中,数据可能变得线性可分或线性关系更明显。模型变为:

\[ f(\mathbf{x}) = \mathbf{w}^T \phi(\mathbf{x}) + b \]

直接计算 \(\phi(\mathbf{x})\) 可能非常困难(维度灾难)。核技巧的核心思想是,我们不需要显式地知道映射 \(\phi\) 是什么,也不需要直接计算高维向量 \(\mathbf{w}\)\(\phi(\mathbf{x})\),而是通过一个核函数 \(K(\mathbf{x}_i, \mathbf{x}_j) = \langle \phi(\mathbf{x}_i), \phi(\mathbf{x}_j) \rangle\) 来隐式地计算高维空间中的内积。常用的核函数包括多项式核、高斯径向基(RBF)核等。

  1. 核岭回归的优化问题
    将岭回归的模型应用到特征映射后的空间,优化问题变为:

\[ \min_{\mathbf{w}, b} \sum_{i=1}^{n} (y_i - \mathbf{w}^T \phi(\mathbf{x}_i) - b)^2 + \alpha \|\mathbf{w}\|_2^2 \]

为了简化,通常假设数据已经中心化,即 \(b = 0\)(可以通过预处理数据减去均值来实现)。因此,问题简化为:

\[ \min_{\mathbf{w}} \|\mathbf{y} - \Phi \mathbf{w}\|_2^2 + \alpha \|\mathbf{w}\|_2^2 \]

其中,\(\mathbf{y} = [y_1, y_2, ..., y_n]^T\) 是目标值向量,\(\Phi\) 是设计矩阵,其第 \(i\) 行为 \(\phi(\mathbf{x}_i)^T\)

  1. 求解核岭回归:表示定理
    根据表示定理(Representer Theorem),上述优化问题的最优解 \(\mathbf{w}^*\) 可以表示为训练样本在特征空间中映射的线性组合:

\[ \mathbf{w}^* = \sum_{i=1}^{n} \beta_i \phi(\mathbf{x}_i) = \Phi^T \boldsymbol{\beta} \]

这里,\(\boldsymbol{\beta} = (\beta_1, \beta_2, ..., \beta_n)^T\) 是一个新的权重系数向量。这个定理的意义在于,它将优化变量从高维(可能无限维)的 \(\mathbf{w}\) 转换为了 \(n\) 维的 \(\boldsymbol{\beta}\)

  1. 推导核岭回归的解析解
    \(\mathbf{w} = \Phi^T \boldsymbol{\beta}\) 代入简化后的优化目标函数中:

\[ \|\mathbf{y} - \Phi (\Phi^T \boldsymbol{\beta}) \|_2^2 + \alpha \| \Phi^T \boldsymbol{\beta} \|_2^2 \]

计算L2范数:

\[ = (\mathbf{y} - \Phi \Phi^T \boldsymbol{\beta})^T (\mathbf{y} - \Phi \Phi^T \boldsymbol{\beta}) + \alpha (\Phi^T \boldsymbol{\beta})^T (\Phi^T \boldsymbol{\beta}) \]

\[ = \mathbf{y}^T \mathbf{y} - 2 \mathbf{y}^T \Phi \Phi^T \boldsymbol{\beta} + \boldsymbol{\beta}^T \Phi \Phi^T \Phi \Phi^T \boldsymbol{\beta} + \alpha \boldsymbol{\beta}^T \Phi \Phi^T \boldsymbol{\beta} \]

我们引入格拉姆矩阵(Gram Matrix)\(\mathbf{K}\),其中 \(K_{ij} = K(\mathbf{x}_i, \mathbf{x}_j) = \phi(\mathbf{x}_i)^T \phi(\mathbf{x}_j)\)。因此,\(\Phi \Phi^T = \mathbf{K}\)
目标函数简化为:

\[ = \mathbf{y}^T \mathbf{y} - 2 \mathbf{y}^T \mathbf{K} \boldsymbol{\beta} + \boldsymbol{\beta}^T \mathbf{K} \mathbf{K} \boldsymbol{\beta} + \alpha \boldsymbol{\beta}^T \mathbf{K} \boldsymbol{\beta} \]

为了最小化这个关于 \(\boldsymbol{\beta}\) 的函数,我们对其求梯度并令其为零:

\[ \nabla_{\boldsymbol{\beta}} = -2 \mathbf{K} \mathbf{y} + 2 \mathbf{K} \mathbf{K} \boldsymbol{\beta} + 2 \alpha \mathbf{K} \boldsymbol{\beta} = 0 \]

假设 \(\mathbf{K}\) 是满秩的(通常通过选择适当的核函数和 \(\alpha > 0\) 来保证),我们可以两边同时左乘 \(\mathbf{K}^{-1}\) 并除以2:

\[ -\mathbf{y} + \mathbf{K} \boldsymbol{\beta} + \alpha \boldsymbol{\beta} = 0 \]

整理得到:

\[ (\mathbf{K} + \alpha \mathbf{I}) \boldsymbol{\beta} = \mathbf{y} \]

其中,\(\mathbf{I}\)\(n \times n\) 的单位矩阵。最终,我们得到核岭回归的解析解:

\[ \boldsymbol{\beta} = (\mathbf{K} + \alpha \mathbf{I})^{-1} \mathbf{y} \]

  1. 预测新样本
    对于一个新的样本 \(\mathbf{x}_{\text{new}}\),其预测值 \(f(\mathbf{x}_{\text{new}})\) 为:

\[ f(\mathbf{x}_{\text{new}}) = \mathbf{w}^{*T} \phi(\mathbf{x}_{\text{new}}) = (\Phi^T \boldsymbol{\beta})^T \phi(\mathbf{x}_{\text{new}}) = \boldsymbol{\beta}^T \Phi \phi(\mathbf{x}_{\text{new}}) \]

再次利用核函数,\(\Phi \phi(\mathbf{x}_{\text{new}})\) 是一个向量,其第 \(i\) 个元素是 \(K(\mathbf{x}_i, \mathbf{x}_{\text{new}})\)。我们记这个向量为 \(\mathbf{k}_{\text{new}} = [K(\mathbf{x}_1, \mathbf{x}_{\text{new}}), ..., K(\mathbf{x}_n, \mathbf{x}_{\text{new}})]^T\)
因此,预测公式非常简洁:

\[ f(\mathbf{x}_{\text{new}}) = \boldsymbol{\beta}^T \mathbf{k}_{\text{new}} = \sum_{i=1}^{n} \beta_i K(\mathbf{x}_i, \mathbf{x}_{\text{new}}) \]

总结
核岭回归的关键步骤是:1) 通过核函数隐式地将数据映射到高维特征空间以捕捉非线性;2) 利用表示定理将优化变量转换为样本空间的系数向量;3) 通过求解线性方程组 \((\mathbf{K} + \alpha \mathbf{I}) \boldsymbol{\beta} = \mathbf{y}\) 得到模型参数 \(\boldsymbol{\beta}\);4) 对新样本的预测是训练样本目标值的加权和,权重由 \(\boldsymbol{\beta}\) 和核函数决定。KRR的优点在于能够处理非线性且具有解析解,缺点是当样本量 \(n\) 很大时,求逆一个 \(n \times n\) 的矩阵计算成本较高。

核岭回归(Kernel Ridge Regression)算法的原理与计算过程 题目描述 核岭回归(Kernel Ridge Regression, KRR)是一种结合了岭回归(L2正则化线性回归)和核技巧(Kernel Trick)的回归算法。它能够有效地处理非线性关系,同时通过正则化避免过拟合。我们的任务是理解KRR如何将线性模型扩展到非线性场景,并掌握其从模型构建到求解的完整计算过程。 解题过程 问题回顾:岭回归 岭回归是线性回归的L2正则化形式。对于一个线性模型 \( f(\mathbf{x}) = \mathbf{w}^T \mathbf{x} + b \),其目标是最小化带有L2惩罚项的损失函数: \[ \min_ {\mathbf{w}, b} \sum_ {i=1}^{n} (y_ i - \mathbf{w}^T \mathbf{x}_ i - b)^2 + \alpha \|\mathbf{w}\|_ 2^2 \] 其中,\( \alpha \) 是控制正则化强度的超参数。其解析解可以通过求解正规方程得到。然而,标准的岭回归只能学习输入特征 \( \mathbf{x} \) 的线性组合。 引入核技巧处理非线性 当数据中存在非线性关系时,我们希望将原始特征 \( \mathbf{x} \in \mathbb{R}^d \) 映射到一个更高维(甚至无限维)的特征空间 \( \mathcal{H} \) 中,即 \( \phi(\mathbf{x}) \)。在这个高维空间中,数据可能变得线性可分或线性关系更明显。模型变为: \[ f(\mathbf{x}) = \mathbf{w}^T \phi(\mathbf{x}) + b \] 直接计算 \( \phi(\mathbf{x}) \) 可能非常困难(维度灾难)。核技巧的核心思想是,我们不需要显式地知道映射 \( \phi \) 是什么,也不需要直接计算高维向量 \( \mathbf{w} \) 和 \( \phi(\mathbf{x}) \),而是通过一个核函数 \( K(\mathbf{x}_ i, \mathbf{x}_ j) = \langle \phi(\mathbf{x}_ i), \phi(\mathbf{x}_ j) \rangle \) 来隐式地计算高维空间中的内积。常用的核函数包括多项式核、高斯径向基(RBF)核等。 核岭回归的优化问题 将岭回归的模型应用到特征映射后的空间,优化问题变为: \[ \min_ {\mathbf{w}, b} \sum_ {i=1}^{n} (y_ i - \mathbf{w}^T \phi(\mathbf{x}_ i) - b)^2 + \alpha \|\mathbf{w}\| 2^2 \] 为了简化,通常假设数据已经中心化,即 \( b = 0 \)(可以通过预处理数据减去均值来实现)。因此,问题简化为: \[ \min {\mathbf{w}} \|\mathbf{y} - \Phi \mathbf{w}\|_ 2^2 + \alpha \|\mathbf{w}\|_ 2^2 \] 其中,\( \mathbf{y} = [ y_ 1, y_ 2, ..., y_ n]^T \) 是目标值向量,\( \Phi \) 是设计矩阵,其第 \( i \) 行为 \( \phi(\mathbf{x}_ i)^T \)。 求解核岭回归:表示定理 根据表示定理(Representer Theorem),上述优化问题的最优解 \( \mathbf{w}^* \) 可以表示为训练样本在特征空间中映射的线性组合: \[ \mathbf{w}^* = \sum_ {i=1}^{n} \beta_ i \phi(\mathbf{x}_ i) = \Phi^T \boldsymbol{\beta} \] 这里,\( \boldsymbol{\beta} = (\beta_ 1, \beta_ 2, ..., \beta_ n)^T \) 是一个新的权重系数向量。这个定理的意义在于,它将优化变量从高维(可能无限维)的 \( \mathbf{w} \) 转换为了 \( n \) 维的 \( \boldsymbol{\beta} \)。 推导核岭回归的解析解 将 \( \mathbf{w} = \Phi^T \boldsymbol{\beta} \) 代入简化后的优化目标函数中: \[ \|\mathbf{y} - \Phi (\Phi^T \boldsymbol{\beta}) \|_ 2^2 + \alpha \| \Phi^T \boldsymbol{\beta} \| 2^2 \] 计算L2范数: \[ = (\mathbf{y} - \Phi \Phi^T \boldsymbol{\beta})^T (\mathbf{y} - \Phi \Phi^T \boldsymbol{\beta}) + \alpha (\Phi^T \boldsymbol{\beta})^T (\Phi^T \boldsymbol{\beta}) \] \[ = \mathbf{y}^T \mathbf{y} - 2 \mathbf{y}^T \Phi \Phi^T \boldsymbol{\beta} + \boldsymbol{\beta}^T \Phi \Phi^T \Phi \Phi^T \boldsymbol{\beta} + \alpha \boldsymbol{\beta}^T \Phi \Phi^T \boldsymbol{\beta} \] 我们引入格拉姆矩阵(Gram Matrix)\( \mathbf{K} \),其中 \( K {ij} = K(\mathbf{x}_ i, \mathbf{x}_ j) = \phi(\mathbf{x}_ i)^T \phi(\mathbf{x} j) \)。因此,\( \Phi \Phi^T = \mathbf{K} \)。 目标函数简化为: \[ = \mathbf{y}^T \mathbf{y} - 2 \mathbf{y}^T \mathbf{K} \boldsymbol{\beta} + \boldsymbol{\beta}^T \mathbf{K} \mathbf{K} \boldsymbol{\beta} + \alpha \boldsymbol{\beta}^T \mathbf{K} \boldsymbol{\beta} \] 为了最小化这个关于 \( \boldsymbol{\beta} \) 的函数,我们对其求梯度并令其为零: \[ \nabla {\boldsymbol{\beta}} = -2 \mathbf{K} \mathbf{y} + 2 \mathbf{K} \mathbf{K} \boldsymbol{\beta} + 2 \alpha \mathbf{K} \boldsymbol{\beta} = 0 \] 假设 \( \mathbf{K} \) 是满秩的(通常通过选择适当的核函数和 \( \alpha > 0 \) 来保证),我们可以两边同时左乘 \( \mathbf{K}^{-1} \) 并除以2: \[ -\mathbf{y} + \mathbf{K} \boldsymbol{\beta} + \alpha \boldsymbol{\beta} = 0 \] 整理得到: \[ (\mathbf{K} + \alpha \mathbf{I}) \boldsymbol{\beta} = \mathbf{y} \] 其中,\( \mathbf{I} \) 是 \( n \times n \) 的单位矩阵。最终,我们得到核岭回归的解析解: \[ \boldsymbol{\beta} = (\mathbf{K} + \alpha \mathbf{I})^{-1} \mathbf{y} \] 预测新样本 对于一个新的样本 \( \mathbf{x} {\text{new}} \),其预测值 \( f(\mathbf{x} {\text{new}}) \) 为: \[ f(\mathbf{x} {\text{new}}) = \mathbf{w}^{* T} \phi(\mathbf{x} {\text{new}}) = (\Phi^T \boldsymbol{\beta})^T \phi(\mathbf{x} {\text{new}}) = \boldsymbol{\beta}^T \Phi \phi(\mathbf{x} {\text{new}}) \] 再次利用核函数,\( \Phi \phi(\mathbf{x} {\text{new}}) \) 是一个向量,其第 \( i \) 个元素是 \( K(\mathbf{x} i, \mathbf{x} {\text{new}}) \)。我们记这个向量为 \( \mathbf{k} {\text{new}} = [ K(\mathbf{x} 1, \mathbf{x} {\text{new}}), ..., K(\mathbf{x} n, \mathbf{x} {\text{new}}) ]^T \)。 因此,预测公式非常简洁: \[ f(\mathbf{x} {\text{new}}) = \boldsymbol{\beta}^T \mathbf{k} {\text{new}} = \sum_ {i=1}^{n} \beta_ i K(\mathbf{x} i, \mathbf{x} {\text{new}}) \] 总结 核岭回归的关键步骤是:1) 通过核函数隐式地将数据映射到高维特征空间以捕捉非线性;2) 利用表示定理将优化变量转换为样本空间的系数向量;3) 通过求解线性方程组 \( (\mathbf{K} + \alpha \mathbf{I}) \boldsymbol{\beta} = \mathbf{y} \) 得到模型参数 \( \boldsymbol{\beta} \);4) 对新样本的预测是训练样本目标值的加权和,权重由 \( \boldsymbol{\beta} \) 和核函数决定。KRR的优点在于能够处理非线性且具有解析解,缺点是当样本量 \( n \) 很大时,求逆一个 \( n \times n \) 的矩阵计算成本较高。