谱聚类(Spectral Clustering)的随机游走解释与图切割优化过程
字数 1949 2025-11-16 16:19:51
谱聚类(Spectral Clustering)的随机游走解释与图切割优化过程
题目描述
谱聚类是一种基于图论的聚类方法,它将数据点视为图中的节点,通过构建相似度图并分析图的谱(特征值与特征向量)来划分数据。本题要求从随机游走的视角解释谱聚类的原理,并详细说明其如何通过图切割优化实现聚类。
解题过程
1. 问题建模:构建相似度图
- 目标:将数据点转换为图结构,便于后续分析。
- 步骤:
- 节点表示:每个数据点 \(x_i\) 对应图中的一个节点。
- 边权重计算:使用高斯核函数计算节点间的相似度:
\[ W_{ij} = \exp\left(-\frac{\|x_i - x_j\|^2}{2\sigma^2}\right) \]
其中 $ \sigma $ 控制相似度的衰减速度。
- 图构建:形成邻接矩阵 \(W\),表示全连接图或k近邻图。
2. 随机游走解释
- 核心思想:将聚类问题转化为“随机游走在图中停留时间较长”的社区发现问题。
- 关键概念:
- 转移概率矩阵 \(P\):定义随机游走从节点 \(i\) 跳到节点 \(j\) 的概率:
\[ P_{ij} = \frac{W_{ij}}{d_i}, \quad d_i = \sum_{j=1}^n W_{ij} \]
其中 $ d_i $ 是节点 $ i $ 的度。
- 平稳分布:若游走足够长时间,节点被访问的概率收敛于 \(\pi_i = d_i / \sum_{j=1}^n d_j\)。
- 聚类直觉:同一簇内的节点间转移概率高,而不同簇间的转移概率低。随机游走倾向于在簇内停留,从而通过分析转移矩阵的特征向量揭示簇结构。
3. 图切割优化
- 目标:将图划分为 \(k\) 个子图,使得:
- 子图内连接紧密(权重高)。
- 子图间连接稀疏(权重低)。
- 切割定义:
- RatioCut:最小化 \(\text{RatioCut}(A_1,\dots,A_k) = \sum_{i=1}^k \frac{\text{Cut}(A_i, \bar{A}_i)}{|A_i|}\),其中 \(\text{Cut}(A_i, \bar{A}_i)\) 是子图 \(A_i\) 与剩余图的边权重和。
- 归一化切割(NCut):使用子图度归一化:
\[ \text{NCut}(A_1,\dots,A_k) = \sum_{i=1}^k \frac{\text{Cut}(A_i, \bar{A}_i)}{\text{vol}(A_i)}, \quad \text{vol}(A_i) = \sum_{v \in A_i} d_v \]
4. 谱松弛与特征分解
- 关键步骤:将离散的切割问题松弛为连续优化问题。
- 拉普拉斯矩阵:使用归一化拉普拉斯矩阵 \(L_{\text{sym}} = I - D^{-1/2} W D^{-1/2}\),其中 \(D\) 为度矩阵(对角元素 \(D_{ii} = d_i\))。
- 优化目标:NCut最小化等价于求解:
\[ \min_{H} \text{Tr}(H^T L_{\text{sym}} H) \quad \text{s.t.} \quad H^T H = I \]
其中 $ H $ 的每一列是簇指示向量。
- 特征分解:解为 \(L_{\text{sym}}\) 的前 \(k\) 个最小特征值对应的特征向量,构成矩阵 \(U \in \mathbb{R}^{n \times k}\)。
5. 聚类实现
- 降维与划分:
- 将原始数据点映射到特征向量张成的空间:每行 \(U_i\) 作为数据点 \(i\) 的新表示。
- 对新表示 \(U\) 的行向量使用k-means聚类,得到最终簇划分。
6. 算法总结
- 构建相似度图,计算邻接矩阵 \(W\) 和度矩阵 \(D\)。
- 计算归一化拉普拉斯矩阵 \(L_{\text{sym}} = I - D^{-1/2} W D^{-1/2}\)。
- 对 \(L_{\text{sym}}\) 进行特征分解,取前 \(k\) 个最小特征值对应的特征向量构成 \(U\)。
- 对 \(U\) 的行向量执行k-means聚类,分配原始数据点到 \(k\) 个簇。
关键理解
- 随机游走视角解释了为什么特征向量能反映簇结构:缓慢混合的随机游走对应小特征值,特征向量标识了游走被困的社区。
- 图切割视角提供了聚类的优化目标,谱松弛将其转化为可求解的线性代数问题。