高斯核支持向量机(RBF SVM)的数学推导与优化过程
字数 1755 2025-11-17 15:05:36

高斯核支持向量机(RBF SVM)的数学推导与优化过程

题目描述
高斯核支持向量机(RBF SVM)通过核技巧将线性不可分数据映射到高维特征空间,实现非线性分类。其核心是构造一个基于高斯核函数的决策函数,并求解支持向量与拉格朗日乘子。本题需推导RBF SVM的数学形式,并解释其优化过程。

解题过程

  1. 问题定义与线性SVM回顾
    • 对于线性可分数据,SVM的决策函数为 \(f(\mathbf{x}) = \mathbf{w}^T \mathbf{x} + b\),优化目标为最大化分类间隔:

\[ \min_{\mathbf{w}, b} \frac{1}{2} \|\mathbf{w}\|^2 \quad \text{s.t.} \quad y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 \]

  • 引入拉格朗日乘子 \(\alpha_i \geq 0\),得到对偶问题:

\[ \max_{\alpha} \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i,j} \alpha_i \alpha_j y_i y_j \mathbf{x}_i^T \mathbf{x}_j \]

  1. 核技巧引入
    • 当数据线性不可分时,通过映射函数 \(\phi(\mathbf{x})\) 将输入空间映射到高维特征空间。对偶问题中的内积 \(\mathbf{x}_i^T \mathbf{x}_j\) 被替换为核函数 \(K(\mathbf{x}_i, \mathbf{x}_j) = \phi(\mathbf{x}_i)^T \phi(\mathbf{x}_j)\)
    • 高斯核(RBF核)定义为:

\[ K(\mathbf{x}_i, \mathbf{x}_j) = \exp\left(-\gamma \|\mathbf{x}_i - \mathbf{x}_j\|^2\right) \]

 其中 $\gamma = \frac{1}{2\sigma^2}$ 控制核函数的宽度。
  1. RBF SVM的对偶问题
    • 将高斯核代入对偶问题,优化目标变为:

\[ \max_{\alpha} \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i,j} \alpha_i \alpha_j y_i y_j K(\mathbf{x}_i, \mathbf{x}_j) \]

 约束条件为 $\sum_{i=1}^n \alpha_i y_i = 0$ 且 $0 \leq \alpha_i \leq C$($C$ 为惩罚参数)。  
  • 决策函数变为:

\[ f(\mathbf{x}) = \sum_{i=1}^n \alpha_i y_i K(\mathbf{x}_i, \mathbf{x}) + b \]

  1. 优化求解方法

    • 使用序列最小优化(SMO)算法求解对偶问题:
      • 每次选择两个拉格朗日乘子 \(\alpha_i, \alpha_j\),固定其他乘子,解析求解子问题。
      • 更新 \(\alpha_i, \alpha_j\) 时需满足线性约束 \(\alpha_i y_i + \alpha_j y_j = \text{常数}\)
    • 计算偏置 \(b\)
      利用支持向量(\(\alpha_i > 0\))满足 \(y_i f(\mathbf{x}_i) = 1\) 的条件,通过平均所有支持向量的计算结果提高稳定性。
  2. 超参数的影响

    • \(\gamma\) 控制高斯核的灵敏度:
      • 较大 \(\gamma\) 导致核函数衰减快,决策边界复杂,可能过拟合;
      • 较小 \(\gamma\) 使决策边界平滑,可能欠拟合。
    • \(C\) 控制分类错误的惩罚:
      • 较大 \(C\) 强调分类正确性,可能过拟合;
      • 较小 \(C\) 允许更多错误,模型更简单。

关键点总结
RBF SVM通过高斯核将数据映射到无限维空间,利用核技巧避免显式计算高维特征。求解时转化为凸二次规划问题,通过SMO算法高效优化拉格朗日乘子,最终仅依赖支持向量进行预测。

高斯核支持向量机(RBF SVM)的数学推导与优化过程 题目描述 高斯核支持向量机(RBF SVM)通过核技巧将线性不可分数据映射到高维特征空间,实现非线性分类。其核心是构造一个基于高斯核函数的决策函数,并求解支持向量与拉格朗日乘子。本题需推导RBF SVM的数学形式,并解释其优化过程。 解题过程 问题定义与线性SVM回顾 对于线性可分数据,SVM的决策函数为 \( f(\mathbf{x}) = \mathbf{w}^T \mathbf{x} + b \),优化目标为最大化分类间隔: \[ \min_ {\mathbf{w}, b} \frac{1}{2} \|\mathbf{w}\|^2 \quad \text{s.t.} \quad y_ i (\mathbf{w}^T \mathbf{x}_ i + b) \geq 1 \] 引入拉格朗日乘子 \(\alpha_ i \geq 0\),得到对偶问题: \[ \max_ {\alpha} \sum_ {i=1}^n \alpha_ i - \frac{1}{2} \sum_ {i,j} \alpha_ i \alpha_ j y_ i y_ j \mathbf{x}_ i^T \mathbf{x}_ j \] 核技巧引入 当数据线性不可分时,通过映射函数 \(\phi(\mathbf{x})\) 将输入空间映射到高维特征空间。对偶问题中的内积 \(\mathbf{x}_ i^T \mathbf{x}_ j\) 被替换为核函数 \(K(\mathbf{x}_ i, \mathbf{x}_ j) = \phi(\mathbf{x}_ i)^T \phi(\mathbf{x}_ j)\)。 高斯核(RBF核)定义为: \[ K(\mathbf{x}_ i, \mathbf{x}_ j) = \exp\left(-\gamma \|\mathbf{x}_ i - \mathbf{x}_ j\|^2\right) \] 其中 \(\gamma = \frac{1}{2\sigma^2}\) 控制核函数的宽度。 RBF SVM的对偶问题 将高斯核代入对偶问题,优化目标变为: \[ \max_ {\alpha} \sum_ {i=1}^n \alpha_ i - \frac{1}{2} \sum_ {i,j} \alpha_ i \alpha_ j y_ i y_ j K(\mathbf{x}_ i, \mathbf{x} j) \] 约束条件为 \(\sum {i=1}^n \alpha_ i y_ i = 0\) 且 \(0 \leq \alpha_ i \leq C\)(\(C\) 为惩罚参数)。 决策函数变为: \[ f(\mathbf{x}) = \sum_ {i=1}^n \alpha_ i y_ i K(\mathbf{x}_ i, \mathbf{x}) + b \] 优化求解方法 使用序列最小优化(SMO)算法求解对偶问题: 每次选择两个拉格朗日乘子 \(\alpha_ i, \alpha_ j\),固定其他乘子,解析求解子问题。 更新 \(\alpha_ i, \alpha_ j\) 时需满足线性约束 \(\alpha_ i y_ i + \alpha_ j y_ j = \text{常数}\)。 计算偏置 \(b\): 利用支持向量(\(\alpha_ i > 0\))满足 \(y_ i f(\mathbf{x}_ i) = 1\) 的条件,通过平均所有支持向量的计算结果提高稳定性。 超参数的影响 \(\gamma\) 控制高斯核的灵敏度: 较大 \(\gamma\) 导致核函数衰减快,决策边界复杂,可能过拟合; 较小 \(\gamma\) 使决策边界平滑,可能欠拟合。 \(C\) 控制分类错误的惩罚: 较大 \(C\) 强调分类正确性,可能过拟合; 较小 \(C\) 允许更多错误,模型更简单。 关键点总结 RBF SVM通过高斯核将数据映射到无限维空间,利用核技巧避免显式计算高维特征。求解时转化为凸二次规划问题,通过SMO算法高效优化拉格朗日乘子,最终仅依赖支持向量进行预测。