基于核的岭回归(Kernel Ridge Regression)的对偶形式推导与求解过程
字数 4574 2025-12-09 07:15:11

基于核的岭回归(Kernel Ridge Regression)的对偶形式推导与求解过程

题目描述
岭回归(Ridge Regression)是一种经典的线性回归正则化方法,它在损失函数中加入L2正则项以防止过拟合。当我们希望模型能够捕捉非线性模式时,一种常见做法是通过“核技巧”(Kernel Trick)将数据隐式映射到高维特征空间,并在该空间中进行岭回归。这种基于核的岭回归模型称为核岭回归。本题目要求详细推导核岭回归的对偶形式,并解释其求解过程。这涉及从原始问题(Primal Problem)出发,利用表示定理(Representer Theorem)和拉格朗日对偶性,将原优化问题转化为一个完全由核函数表示的对偶问题,最终通过求解线性方程组得到模型预测函数。

解题过程

1. 原始岭回归问题的定义
给定训练集 \(\{(\mathbf{x}_i, y_i)\}_{i=1}^n\),其中 \(\mathbf{x}_i \in \mathbb{R}^d\) 是特征向量,\(y_i \in \mathbb{R}\) 是连续标签。岭回归的优化目标为:

\[\min_{\mathbf{w} \in \mathbb{R}^d} \; \frac{1}{2} \sum_{i=1}^n (y_i - \mathbf{w}^\top \mathbf{x}_i)^2 + \frac{\lambda}{2} \|\mathbf{w}\|^2 \]

其中 \(\lambda > 0\) 是正则化系数,\(\|\cdot\|\) 表示向量的L2范数。这是一个关于权重向量 \(\mathbf{w}\) 的凸优化问题。

2. 引入特征映射与核技巧
为了处理非线性关系,我们引入一个非线性映射 \(\phi: \mathbb{R}^d \to \mathcal{H}\),将原始特征映射到某个高维(甚至是无穷维)的再生核希尔伯特空间(RKHS)\(\mathcal{H}\)。此时模型变为:

\[f(\mathbf{x}) = \mathbf{w}^\top \phi(\mathbf{x}) \]

优化问题变为:

\[\min_{\mathbf{w} \in \mathcal{H}} \; \frac{1}{2} \sum_{i=1}^n (y_i - \mathbf{w}^\top \phi(\mathbf{x}_i))^2 + \frac{\lambda}{2} \|\mathbf{w}\|_{\mathcal{H}}^2 \]

这里 \(\|\cdot\|_{\mathcal{H}}\) 是 RKHS 中的范数。直接求解 \(\mathbf{w}\) 是困难的,因为 \(\phi(\mathbf{x}_i)\) 的维度可能极高。

3. 应用表示定理
根据表示定理(Representer Theorem),上述优化问题的最优解 \(\mathbf{w}^*\) 可以表示为训练样本映射的线性组合:

\[\mathbf{w}^* = \sum_{i=1}^n \alpha_i \phi(\mathbf{x}_i) \]

其中 \(\boldsymbol{\alpha} = (\alpha_1, \dots, \alpha_n)^\top \in \mathbb{R}^n\) 是待求的组合系数。
代入模型,预测函数可写为:

\[f(\mathbf{x}) = \sum_{i=1}^n \alpha_i \phi(\mathbf{x}_i)^\top \phi(\mathbf{x}) = \sum_{i=1}^n \alpha_i k(\mathbf{x}_i, \mathbf{x}) \]

这里 \(k(\mathbf{x}_i, \mathbf{x}) = \langle \phi(\mathbf{x}_i), \phi(\mathbf{x}) \rangle\) 是核函数,例如高斯核 \(k(\mathbf{x}, \mathbf{z}) = \exp(-\gamma \|\mathbf{x} - \mathbf{z}\|^2)\)。我们无需显式计算 \(\phi\),只需核函数。

4. 将对偶系数 \(\boldsymbol{\alpha}\) 的求解转化为优化问题
\(\mathbf{w} = \sum_{i=1}^n \alpha_i \phi(\mathbf{x}_i)\) 代入原目标函数。
首先计算误差项:

\[\mathbf{w}^\top \phi(\mathbf{x}_j) = \sum_{i=1}^n \alpha_i \phi(\mathbf{x}_i)^\top \phi(\mathbf{x}_j) = \sum_{i=1}^n \alpha_i k(\mathbf{x}_i, \mathbf{x}_j) \]

定义核矩阵 \(\mathbf{K} \in \mathbb{R}^{n \times n}\),其中 \(K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j)\)。记 \(\mathbf{y} = (y_1, \dots, y_n)^\top\),则误差向量为:

\[\mathbf{y} - \mathbf{K} \boldsymbol{\alpha} \]

误差平方和:

\[\sum_{i=1}^n (y_i - \mathbf{w}^\top \phi(\mathbf{x}_i))^2 = (\mathbf{y} - \mathbf{K} \boldsymbol{\alpha})^\top (\mathbf{y} - \mathbf{K} \boldsymbol{\alpha}) \]

其次计算正则项:

\[\|\mathbf{w}\|_{\mathcal{H}}^2 = \left\langle \sum_{i=1}^n \alpha_i \phi(\mathbf{x}_i), \sum_{j=1}^n \alpha_j \phi(\mathbf{x}_j) \right\rangle = \sum_{i=1}^n \sum_{j=1}^n \alpha_i \alpha_j k(\mathbf{x}_i, \mathbf{x}_j) = \boldsymbol{\alpha}^\top \mathbf{K} \boldsymbol{\alpha} \]

因此原目标函数等价为关于 \(\boldsymbol{\alpha}\) 的无约束优化问题:

\[\min_{\boldsymbol{\alpha} \in \mathbb{R}^n} \; \frac{1}{2} (\mathbf{y} - \mathbf{K} \boldsymbol{\alpha})^\top (\mathbf{y} - \mathbf{K} \boldsymbol{\alpha}) + \frac{\lambda}{2} \boldsymbol{\alpha}^\top \mathbf{K} \boldsymbol{\alpha} \]

5. 求解对偶系数
对目标函数关于 \(\boldsymbol{\alpha}\) 求梯度并令为零:

\[\nabla_{\boldsymbol{\alpha}} \left[ \frac{1}{2} (\mathbf{y} - \mathbf{K} \boldsymbol{\alpha})^\top (\mathbf{y} - \mathbf{K} \boldsymbol{\alpha}) + \frac{\lambda}{2} \boldsymbol{\alpha}^\top \mathbf{K} \boldsymbol{\alpha} \right] = 0 \]

展开:

\[-\mathbf{K}^\top (\mathbf{y} - \mathbf{K} \boldsymbol{\alpha}) + \lambda \mathbf{K} \boldsymbol{\alpha} = 0 \]

由于 \(\mathbf{K}\) 对称(通常核函数满足对称性),即 \(\mathbf{K}^\top = \mathbf{K}\),可得:

\[-\mathbf{K} \mathbf{y} + \mathbf{K}^2 \boldsymbol{\alpha} + \lambda \mathbf{K} \boldsymbol{\alpha} = 0 \]

提出 \(\mathbf{K}\)(注意 \(\mathbf{K}\) 可逆吗?不一定,但可整理方程):

\[\mathbf{K} (\mathbf{K} \boldsymbol{\alpha} - \mathbf{y} + \lambda \boldsymbol{\alpha}) = 0 \]

\(\mathbf{K}\) 是满秩的,则可得:

\[\mathbf{K} \boldsymbol{\alpha} - \mathbf{y} + \lambda \boldsymbol{\alpha} = 0 \]

整理得到线性方程组:

\[(\mathbf{K} + \lambda \mathbf{I}_n) \boldsymbol{\alpha} = \mathbf{y} \]

其中 \(\mathbf{I}_n\)\(n \times n\) 单位矩阵。
即使 \(\mathbf{K}\) 不满秩,上式也是原始优化问题的必要条件(可通过对目标函数直接求导并令为零推导出相同结果)。

6. 最终模型与预测
求解上述线性方程组得到对偶系数:

\[\boldsymbol{\alpha} = (\mathbf{K} + \lambda \mathbf{I}_n)^{-1} \mathbf{y} \]

对于新的输入 \(\mathbf{x}_{\text{new}}\),预测值为:

\[f(\mathbf{x}_{\text{new}}) = \sum_{i=1}^n \alpha_i k(\mathbf{x}_i, \mathbf{x}_{\text{new}}) \]

这即是核岭回归的完整模型。

关键点总结

  • 核岭回归通过核技巧隐式地在高维特征空间中执行岭回归。
  • 利用表示定理,将原问题的解表示为训练样本的核函数线性组合,从而将对权重向量 \(\mathbf{w}\) 的求解转化为对系数向量 \(\boldsymbol{\alpha}\) 的求解。
  • 最终的求解归结为一个线性方程组,涉及核矩阵与正则化项。
  • 该方法避免了显式计算高维特征映射,只需计算核函数,适用于非线性问题,但计算复杂度为 \(O(n^3)\)(因为要求解 \(n \times n\) 线性系统)。
基于核的岭回归(Kernel Ridge Regression)的对偶形式推导与求解过程 题目描述 岭回归(Ridge Regression)是一种经典的线性回归正则化方法,它在损失函数中加入L2正则项以防止过拟合。当我们希望模型能够捕捉非线性模式时,一种常见做法是通过“核技巧”(Kernel Trick)将数据隐式映射到高维特征空间,并在该空间中进行岭回归。这种基于核的岭回归模型称为核岭回归。本题目要求详细推导核岭回归的对偶形式,并解释其求解过程。这涉及从原始问题(Primal Problem)出发,利用表示定理(Representer Theorem)和拉格朗日对偶性,将原优化问题转化为一个完全由核函数表示的对偶问题,最终通过求解线性方程组得到模型预测函数。 解题过程 1. 原始岭回归问题的定义 给定训练集 \(\{(\mathbf{x} i, y_ i)\} {i=1}^n\),其中 \(\mathbf{x} i \in \mathbb{R}^d\) 是特征向量,\(y_ i \in \mathbb{R}\) 是连续标签。岭回归的优化目标为: \[ \min {\mathbf{w} \in \mathbb{R}^d} \; \frac{1}{2} \sum_ {i=1}^n (y_ i - \mathbf{w}^\top \mathbf{x}_ i)^2 + \frac{\lambda}{2} \|\mathbf{w}\|^2 \] 其中 \(\lambda > 0\) 是正则化系数,\(\|\cdot\|\) 表示向量的L2范数。这是一个关于权重向量 \(\mathbf{w}\) 的凸优化问题。 2. 引入特征映射与核技巧 为了处理非线性关系,我们引入一个非线性映射 \(\phi: \mathbb{R}^d \to \mathcal{H}\),将原始特征映射到某个高维(甚至是无穷维)的再生核希尔伯特空间(RKHS)\(\mathcal{H}\)。此时模型变为: \[ f(\mathbf{x}) = \mathbf{w}^\top \phi(\mathbf{x}) \] 优化问题变为: \[ \min_ {\mathbf{w} \in \mathcal{H}} \; \frac{1}{2} \sum_ {i=1}^n (y_ i - \mathbf{w}^\top \phi(\mathbf{x} i))^2 + \frac{\lambda}{2} \|\mathbf{w}\| {\mathcal{H}}^2 \] 这里 \(\|\cdot\|_ {\mathcal{H}}\) 是 RKHS 中的范数。直接求解 \(\mathbf{w}\) 是困难的,因为 \(\phi(\mathbf{x}_ i)\) 的维度可能极高。 3. 应用表示定理 根据表示定理(Representer Theorem),上述优化问题的最优解 \(\mathbf{w}^ \) 可以表示为训练样本映射的线性组合: \[ \mathbf{w}^ = \sum_ {i=1}^n \alpha_ i \phi(\mathbf{x} i) \] 其中 \(\boldsymbol{\alpha} = (\alpha_ 1, \dots, \alpha_ n)^\top \in \mathbb{R}^n\) 是待求的组合系数。 代入模型,预测函数可写为: \[ f(\mathbf{x}) = \sum {i=1}^n \alpha_ i \phi(\mathbf{x} i)^\top \phi(\mathbf{x}) = \sum {i=1}^n \alpha_ i k(\mathbf{x}_ i, \mathbf{x}) \] 这里 \(k(\mathbf{x}_ i, \mathbf{x}) = \langle \phi(\mathbf{x}_ i), \phi(\mathbf{x}) \rangle\) 是核函数,例如高斯核 \(k(\mathbf{x}, \mathbf{z}) = \exp(-\gamma \|\mathbf{x} - \mathbf{z}\|^2)\)。我们无需显式计算 \(\phi\),只需核函数。 4. 将对偶系数 \(\boldsymbol{\alpha}\) 的求解转化为优化问题 将 \(\mathbf{w} = \sum_ {i=1}^n \alpha_ i \phi(\mathbf{x}_ i)\) 代入原目标函数。 首先计算误差项: \[ \mathbf{w}^\top \phi(\mathbf{x} j) = \sum {i=1}^n \alpha_ i \phi(\mathbf{x}_ i)^\top \phi(\mathbf{x} j) = \sum {i=1}^n \alpha_ i k(\mathbf{x} i, \mathbf{x} j) \] 定义核矩阵 \(\mathbf{K} \in \mathbb{R}^{n \times n}\),其中 \(K {ij} = k(\mathbf{x} i, \mathbf{x} j)\)。记 \(\mathbf{y} = (y_ 1, \dots, y_ n)^\top\),则误差向量为: \[ \mathbf{y} - \mathbf{K} \boldsymbol{\alpha} \] 误差平方和: \[ \sum {i=1}^n (y_ i - \mathbf{w}^\top \phi(\mathbf{x} i))^2 = (\mathbf{y} - \mathbf{K} \boldsymbol{\alpha})^\top (\mathbf{y} - \mathbf{K} \boldsymbol{\alpha}) \] 其次计算正则项: \[ \|\mathbf{w}\| {\mathcal{H}}^2 = \left\langle \sum {i=1}^n \alpha_ i \phi(\mathbf{x} i), \sum {j=1}^n \alpha_ j \phi(\mathbf{x} j) \right\rangle = \sum {i=1}^n \sum {j=1}^n \alpha_ i \alpha_ j k(\mathbf{x}_ i, \mathbf{x} j) = \boldsymbol{\alpha}^\top \mathbf{K} \boldsymbol{\alpha} \] 因此原目标函数等价为关于 \(\boldsymbol{\alpha}\) 的无约束优化问题: \[ \min {\boldsymbol{\alpha} \in \mathbb{R}^n} \; \frac{1}{2} (\mathbf{y} - \mathbf{K} \boldsymbol{\alpha})^\top (\mathbf{y} - \mathbf{K} \boldsymbol{\alpha}) + \frac{\lambda}{2} \boldsymbol{\alpha}^\top \mathbf{K} \boldsymbol{\alpha} \] 5. 求解对偶系数 对目标函数关于 \(\boldsymbol{\alpha}\) 求梯度并令为零: \[ \nabla_ {\boldsymbol{\alpha}} \left[ \frac{1}{2} (\mathbf{y} - \mathbf{K} \boldsymbol{\alpha})^\top (\mathbf{y} - \mathbf{K} \boldsymbol{\alpha}) + \frac{\lambda}{2} \boldsymbol{\alpha}^\top \mathbf{K} \boldsymbol{\alpha} \right ] = 0 \] 展开: \[ -\mathbf{K}^\top (\mathbf{y} - \mathbf{K} \boldsymbol{\alpha}) + \lambda \mathbf{K} \boldsymbol{\alpha} = 0 \] 由于 \(\mathbf{K}\) 对称(通常核函数满足对称性),即 \(\mathbf{K}^\top = \mathbf{K}\),可得: \[ -\mathbf{K} \mathbf{y} + \mathbf{K}^2 \boldsymbol{\alpha} + \lambda \mathbf{K} \boldsymbol{\alpha} = 0 \] 提出 \(\mathbf{K}\)(注意 \(\mathbf{K}\) 可逆吗?不一定,但可整理方程): \[ \mathbf{K} (\mathbf{K} \boldsymbol{\alpha} - \mathbf{y} + \lambda \boldsymbol{\alpha}) = 0 \] 若 \(\mathbf{K}\) 是满秩的,则可得: \[ \mathbf{K} \boldsymbol{\alpha} - \mathbf{y} + \lambda \boldsymbol{\alpha} = 0 \] 整理得到线性方程组: \[ (\mathbf{K} + \lambda \mathbf{I}_ n) \boldsymbol{\alpha} = \mathbf{y} \] 其中 \(\mathbf{I}_ n\) 是 \(n \times n\) 单位矩阵。 即使 \(\mathbf{K}\) 不满秩,上式也是原始优化问题的必要条件(可通过对目标函数直接求导并令为零推导出相同结果)。 6. 最终模型与预测 求解上述线性方程组得到对偶系数: \[ \boldsymbol{\alpha} = (\mathbf{K} + \lambda \mathbf{I} n)^{-1} \mathbf{y} \] 对于新的输入 \(\mathbf{x} {\text{new}}\),预测值为: \[ f(\mathbf{x} {\text{new}}) = \sum {i=1}^n \alpha_ i k(\mathbf{x} i, \mathbf{x} {\text{new}}) \] 这即是核岭回归的完整模型。 关键点总结 核岭回归通过核技巧隐式地在高维特征空间中执行岭回归。 利用表示定理,将原问题的解表示为训练样本的核函数线性组合,从而将对权重向量 \(\mathbf{w}\) 的求解转化为对系数向量 \(\boldsymbol{\alpha}\) 的求解。 最终的求解归结为一个线性方程组,涉及核矩阵与正则化项。 该方法避免了显式计算高维特征映射,只需计算核函数,适用于非线性问题,但计算复杂度为 \(O(n^3)\)(因为要求解 \(n \times n\) 线性系统)。