支持向量机(SVM)的软间隔与松弛变量优化过程
题目描述
支持向量机(SVM)在完美线性可分数据上通过硬间隔最大化实现分类,但现实数据常存在噪声或重叠分布,导致硬间隔不可行。软间隔SVM通过引入松弛变量(Slack Variables)允许部分样本违反间隔约束,同时通过惩罚系数平衡分类准确性与模型复杂度。本题将详解软间隔SVM的数学模型、松弛变量的作用,以及优化问题的推导与求解过程。
解题过程
-
问题建模与松弛变量引入
- 硬间隔SVM要求所有样本被正确分类且位于间隔边界外侧,约束条件为:
\(y_i(\mathbf{w}^\top \mathbf{x}_i + b) \geq 1\)。 - 软间隔SVM为每个样本 \(\mathbf{x}_i\) 引入松弛变量 \(\xi_i \geq 0\),约束放松为:
\(y_i(\mathbf{w}^\top \mathbf{x}_i + b) \geq 1 - \xi_i\)。- \(\xi_i = 0\):样本满足硬间隔约束。
- \(0 < \xi_i < 1\):样本落在间隔内但被正确分类。
- \(\xi_i \geq 1\):样本被误分类。
- 硬间隔SVM要求所有样本被正确分类且位于间隔边界外侧,约束条件为:
-
优化目标构建
- 目标函数同时最小化权值范数(最大化间隔)和松弛变量总和(控制分类误差):
\[ \min_{\mathbf{w}, b, \xi} \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^n \xi_i \]
其中 $C > 0$ 是惩罚参数,平衡间隔宽度与分类误差:
- $C$ 较大时,强调减少误分类,间隔可能变窄。
- $C$ 较小时,允许更多误分类,间隔变宽。
- 拉格朗日函数与对偶问题
- 引入拉格朗日乘子 \(\alpha_i \geq 0\) 和 \(\mu_i \geq 0\),构建拉格朗日函数:
\[ L(\mathbf{w}, b, \xi, \alpha, \mu) = \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^n \xi_i - \sum_{i=1}^n \alpha_i \left[ y_i(\mathbf{w}^\top \mathbf{x}_i + b) - 1 + \xi_i \right] - \sum_{i=1}^n \mu_i \xi_i \]
- 通过KKT条件,对 \(\mathbf{w}\)、\(b\)、\(\xi_i\) 求偏导并令为零:
\[ \frac{\partial L}{\partial \mathbf{w}} = 0 \Rightarrow \mathbf{w} = \sum_{i=1}^n \alpha_i y_i \mathbf{x}_i \]
\[ \frac{\partial L}{\partial b} = 0 \Rightarrow \sum_{i=1}^n \alpha_i y_i = 0 \]
\[ \frac{\partial L}{\partial \xi_i} = 0 \Rightarrow C = \alpha_i + \mu_i \]
- 代入拉格朗日函数,得到对偶问题:
\[ \max_{\alpha} \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i=1}^n \sum_{j=1}^n \alpha_i \alpha_j y_i y_j \mathbf{x}_i^\top \mathbf{x}_j \]
约束条件为:
\[ \sum_{i=1}^n \alpha_i y_i = 0, \quad 0 \leq \alpha_i \leq C \quad (\forall i) \]
其中 $\alpha_i \leq C$ 来源于 $C = \alpha_i + \mu_i$ 和 $\mu_i \geq 0$。
- 支持向量与分类决策
- 支持向量对应 \(\alpha_i > 0\) 的样本,分为两类:
- \(\alpha_i < C\):样本恰好位于间隔边界上(\(\xi_i = 0\))。
- \(\alpha_i = C\):样本可能违反间隔约束(\(\xi_i > 0\))。
- 偏移量 \(b\) 通过任意一个 \(0 < \alpha_i < C\) 的样本计算:
- 支持向量对应 \(\alpha_i > 0\) 的样本,分为两类:
\[ b = y_i - \sum_{j=1}^n \alpha_j y_j \mathbf{x}_j^\top \mathbf{x}_i \]
- 最终分类函数为:
\[ f(\mathbf{x}) = \operatorname{sign} \left( \sum_{i=1}^n \alpha_i y_i \mathbf{x}_i^\top \mathbf{x} + b \right) \]
- 松弛变量的直观解释
- \(\xi_i\) 量化了样本的违规程度:
- 若 \(\xi_i = 0\),样本完全满足间隔要求。
- 若 \(\xi_i > 0\),样本越界或误分类,其值越大表示违规越严重。
- 惩罚参数 \(C\) 控制对违规的容忍度:
- \(C \to \infty\) 时退化为硬间隔SVM。
- \(C \to 0\) 时忽略误分类,模型趋于简单。
- \(\xi_i\) 量化了样本的违规程度:
总结
软间隔SVM通过松弛变量和惩罚参数解决了线性不可分问题,其优化过程转化为带不等式约束的二次规划问题,通过对偶化与KKT条件求解。该方法平衡了模型复杂性与泛化能力,是SVM处理现实数据的核心扩展。