高斯核支持向量机(RBF SVM)的数学推导与优化过程
题目描述
高斯核支持向量机(RBF SVM)通过核技巧将线性不可分数据映射到高维特征空间,实现非线性分类。其核心是构造一个基于高斯核函数的决策函数,并求解支持向量与拉格朗日乘子。本题需推导RBF SVM的数学形式,并解释其优化过程。
解题过程
- 问题定义与线性SVM回顾
- 对于线性可分数据,SVM的决策函数为 \(f(\mathbf{x}) = \mathbf{w}^T \mathbf{x} + b\),优化目标为最大化分类间隔:
\[ \min_{\mathbf{w}, b} \frac{1}{2} \|\mathbf{w}\|^2 \quad \text{s.t.} \quad y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 \]
- 引入拉格朗日乘子 \(\alpha_i \geq 0\),得到对偶问题:
\[ \max_{\alpha} \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i,j} \alpha_i \alpha_j y_i y_j \mathbf{x}_i^T \mathbf{x}_j \]
- 核技巧引入
- 当数据线性不可分时,通过映射函数 \(\phi(\mathbf{x})\) 将输入空间映射到高维特征空间。对偶问题中的内积 \(\mathbf{x}_i^T \mathbf{x}_j\) 被替换为核函数 \(K(\mathbf{x}_i, \mathbf{x}_j) = \phi(\mathbf{x}_i)^T \phi(\mathbf{x}_j)\)。
- 高斯核(RBF核)定义为:
\[ K(\mathbf{x}_i, \mathbf{x}_j) = \exp\left(-\gamma \|\mathbf{x}_i - \mathbf{x}_j\|^2\right) \]
其中 $\gamma = \frac{1}{2\sigma^2}$ 控制核函数的宽度。
- RBF SVM的对偶问题
- 将高斯核代入对偶问题,优化目标变为:
\[ \max_{\alpha} \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i,j} \alpha_i \alpha_j y_i y_j K(\mathbf{x}_i, \mathbf{x}_j) \]
约束条件为 $\sum_{i=1}^n \alpha_i y_i = 0$ 且 $0 \leq \alpha_i \leq C$($C$ 为惩罚参数)。
- 决策函数变为:
\[ f(\mathbf{x}) = \sum_{i=1}^n \alpha_i y_i K(\mathbf{x}_i, \mathbf{x}) + b \]
-
优化求解方法
- 使用序列最小优化(SMO)算法求解对偶问题:
- 每次选择两个拉格朗日乘子 \(\alpha_i, \alpha_j\),固定其他乘子,解析求解子问题。
- 更新 \(\alpha_i, \alpha_j\) 时需满足线性约束 \(\alpha_i y_i + \alpha_j y_j = \text{常数}\)。
- 计算偏置 \(b\):
利用支持向量(\(\alpha_i > 0\))满足 \(y_i f(\mathbf{x}_i) = 1\) 的条件,通过平均所有支持向量的计算结果提高稳定性。
- 使用序列最小优化(SMO)算法求解对偶问题:
-
超参数的影响
- \(\gamma\) 控制高斯核的灵敏度:
- 较大 \(\gamma\) 导致核函数衰减快,决策边界复杂,可能过拟合;
- 较小 \(\gamma\) 使决策边界平滑,可能欠拟合。
- \(C\) 控制分类错误的惩罚:
- 较大 \(C\) 强调分类正确性,可能过拟合;
- 较小 \(C\) 允许更多错误,模型更简单。
- \(\gamma\) 控制高斯核的灵敏度:
关键点总结
RBF SVM通过高斯核将数据映射到无限维空间,利用核技巧避免显式计算高维特征。求解时转化为凸二次规划问题,通过SMO算法高效优化拉格朗日乘子,最终仅依赖支持向量进行预测。