基于流形正则化的半监督学习:流形假设、图拉普拉斯正则化与优化求解过程
题目描述
在机器学习中,有标签的数据往往稀缺,而无标签数据则相对丰富。半监督学习(Semi-Supervised Learning)旨在同时利用少量有标签数据和大量无标签数据来构建更好的模型。基于流形正则化的半监督学习 是一类重要的方法,其核心思想是假设数据分布在一个低维流形上,并利用这个几何结构来约束学习函数,使得函数在流形上平滑变化。本题目将深入讲解该方法中的“流形假设”、如何通过图拉普拉斯正则化 将流形平滑性融入学习框架,以及最终的优化求解过程。
1. 流形假设(Manifold Assumption)
流形假设认为,高维观测数据实际上位于一个嵌入在高维空间中的低维流形上。例如,一组人脸图片(高维像素空间)可能实际上由少数几个连续变化的因素(如光照、姿态、表情)控制,形成一个低维流形。在半监督学习中,流形假设意味着:
- 平滑性假设:如果两个样本在流形上是邻近的(即高维空间中的测地距离很近),那么它们的输出标签(或函数值)也应该相似。
- 聚类假设:数据倾向于形成簇,同一簇内的样本更可能共享相同的标签。
利用无标签数据,我们可以估计这个隐含的流形结构,并将其作为正则化项约束模型,使模型在流形上保持平滑,从而提高泛化能力。
2. 构建近邻图表示流形结构
我们首先用图(Graph)来近似数据所在的流形结构:
- 顶点:每个数据点(包括有标签和无标签)对应图中的一个节点。
- 边:如果两个节点 \(x_i\) 和 \(x_j\) 是“近邻”,则在它们之间连一条边。常用的近邻定义包括:
- \(k\)-最近邻(\(k\)-NN):每个点与最近的 \(k\) 个点相连。
- \(\epsilon\)-邻域:距离小于 \(\epsilon\) 的点相连。
- 边权重:通常用高斯核(热核)定义权重 \(W_{ij}\):
\[ W_{ij} = \exp\left( -\frac{\|x_i - x_j\|^2}{2\sigma^2} \right) \]
如果 \(x_i\) 和 \(x_j\) 不是近邻,则 \(W_{ij} = 0\)。
这样,我们得到一个无向加权图 \(G = (V, E, W)\),其中 \(|V| = n = l + u\)(\(l\) 个有标签样本,\(u\) 个无标签样本)。
3. 图拉普拉斯正则化
为了度量函数在流形上的平滑程度,我们引入图拉普拉斯矩阵。定义:
- 度矩阵 \(D\):对角矩阵,\(D_{ii} = \sum_{j=1}^n W_{ij}\)。
- 拉普拉斯矩阵 \(L = D - W\)(未归一化形式)。更常用的是归一化的拉普拉斯矩阵 \(L_{norm} = I - D^{-1/2} W D^{-1/2}\)。
对于一个定义在图上所有节点上的函数 \(f \in \mathbb{R}^n\)(其中 \(f_i\) 是节点 \(i\) 的函数值),其图拉普拉斯正则化项定义为:
\[f^\top L f = \frac{1}{2} \sum_{i,j=1}^n W_{ij} (f_i - f_j)^2 \]
直观解释:如果两个节点很相似(\(W_{ij}\) 大),但它们的函数值 \(f_i\) 和 \(f_j\) 差异很大,则惩罚会很大。因此,最小化 \(f^\top L f\) 会强制 \(f\) 在图上平滑,即在流形上平滑变化。
4. 流形正则化学习框架
我们将有标签数据的损失与流形正则化项结合,得到总体目标函数。假设我们有 \(l\) 个有标签样本 \(\{(x_i, y_i)\}_{i=1}^l\),\(u\) 个无标签样本 \(\{x_j\}_{j=l+1}^{l+u}\),总样本数 \(n = l+u\)。
目标:学习一个预测函数 \(f: \mathcal{X} \to \mathbb{R}\)。在再生核希尔伯特空间(RKHS)\(\mathcal{H}_K\) 中寻找 \(f\),优化问题为:
\[\min_{f \in \mathcal{H}_K} \frac{1}{l} \sum_{i=1}^l V(y_i, f(x_i)) + \gamma_A \|f\|_K^2 + \gamma_I \cdot \frac{1}{n^2} f^\top L f \]
其中:
- 第一项是有标签数据的经验损失,例如平方损失 \((y_i - f(x_i))^2\) 或 hinge 损失。
- 第二项 \(\|f\|_K^2\) 是RKHS范数正则化(控制模型复杂度),\(\gamma_A > 0\) 是其权重。
- 第三项是流形正则化项,\(\gamma_I > 0\) 控制其对流形平滑性的强调程度。因子 \(1/n^2\) 用于缩放(有时也用 \(1/(l+u)^2\))。
5. 基于表示定理的闭式解
根据表示定理,该优化问题的最优解 \(f^*\) 具有形式:
\[f^*(x) = \sum_{i=1}^n \alpha_i K(x, x_i) \]
其中 \(K(\cdot, \cdot)\) 是核函数,\(\alpha = (\alpha_1, \dots, \alpha_n)^\top\) 是待求系数。
将 \(f = [f(x_1), \dots, f(x_n)]^\top = K \alpha\) 代入目标函数,其中 \(K \in \mathbb{R}^{n \times n}\) 是核矩阵,\(K_{ij} = K(x_i, x_j)\)。则:
- RKHS 正则项:\(\|f\|_K^2 = \alpha^\top K \alpha\)。
- 流形正则项:\(f^\top L f = \alpha^\top K L K \alpha\)。
- 有标签损失:假设用平方损失,则 \(\sum_{i=1}^l (y_i - f(x_i))^2 = \|J(Y - K\alpha)\|^2\),其中 \(Y = (y_1, \dots, y_l, 0, \dots, 0)^\top\)(无标签部分设为0),\(J\) 是一个 \(n \times n\) 对角矩阵,前 \(l\) 个对角元为1,其余为0。
于是优化问题转化为关于 \(\alpha\) 的凸二次规划:
\[\min_{\alpha \in \mathbb{R}^n} \frac{1}{l} (Y - K\alpha)^\top J (Y - K\alpha) + \gamma_A \alpha^\top K \alpha + \gamma_I \alpha^\top K L K \alpha \]
6. 求解系数 α
对 \(\alpha\) 求导并令导数为零:
\[-\frac{2}{l} K J (Y - K\alpha) + 2\gamma_A K \alpha + 2\gamma_I K L K \alpha = 0 \]
假设 \(K\) 可逆(通常用正定核,如高斯核),两边左乘 \(K^{-1}\),整理得:
\[\left( J K + l\gamma_A I + l\gamma_I L K \right) \alpha = J Y \]
这是一个线性方程组,可用数值方法(如共轭梯度法)求解 \(\alpha\)。解出 \(\alpha\) 后,对新样本 \(x\) 的预测为:
\[f(x) = \sum_{i=1}^n \alpha_i K(x, x_i) \]
7. 算法总结与讨论
步骤总结:
- 用所有数据(有标签+无标签)构建近邻图,计算权重矩阵 \(W\) 和拉普拉斯矩阵 \(L\)。
- 选择核函数(如线性核、高斯核),计算核矩阵 \(K\)。
- 设置正则化参数 \(\gamma_A, \gamma_I\) 和损失函数。
- 求解线性方程组得到系数 \(\alpha\)。
- 用学得的函数 \(f\) 进行预测。
优势:
- 利用无标签数据揭示流形结构,提升模型在低密度区域(决策边界附近)的泛化能力。
- 可扩展至各种损失函数和核函数,灵活性强。
局限:
- 图构造对参数(如近邻数 \(k\)、核宽 \(\sigma\))敏感,影响最终性能。
- 求解涉及 \(n \times n\) 矩阵,当 \(n\) 很大时计算成本高,可借助稀疏图或迭代求解。
通过以上步骤,我们完成了从流形假设出发,利用图拉普拉斯正则化约束函数平滑性,最终求解半监督学习模型的完整过程。这种方法在文本分类、图像识别等领域被广泛应用,成为经典半监督学习框架之一。