拉普拉斯特征映射(Laplacian Eigenmaps)的降维原理与图嵌入过程
字数 1489 2025-11-11 07:32:15
拉普拉斯特征映射(Laplacian Eigenmaps)的降维原理与图嵌入过程
题目描述
拉普拉斯特征映射是一种基于图理论的非线性降维算法,旨在将高维数据映射到低维空间,同时保留数据点之间的局部邻域关系。其核心思想是:如果两个高维数据点在原始空间中相近(即邻居),那么在低维嵌入空间中它们的距离也应该尽可能小。该算法通过构建数据的邻接图,求解图拉普拉斯矩阵的特征向量来实现降维。
解题过程
-
构建邻接图
- 给定高维数据集 \(X = \{x_1, x_2, ..., x_n\}\),首先构建一个无向图 \(G\),其中每个节点对应一个数据点。
- 邻接关系通常通过以下两种方式确定:
- ε-邻域法:若 \(\|x_i - x_j\| < \epsilon\)(ε为预设阈值),则连接节点 \(i\) 和 \(j\)。
- k-近邻法:若 \(x_j\) 是 \(x_i\) 的 k 个最近邻之一(或互为近邻),则连接 \(i\) 和 \(j\)。
-
定义边的权重
- 为图中每条边分配权重 \(W_{ij}\),常用方法包括:
- 热核权重:\(W_{ij} = \exp\left(-\frac{\|x_i - x_j\|^2}{t}\right)\)(若节点相连,否则为 0),参数 \(t\) 控制权重衰减速度。
- 简单二值权重:若节点相连则 \(W_{ij} = 1\),否则为 0。
- 最终得到对称的权重矩阵 \(W\)。
- 为图中每条边分配权重 \(W_{ij}\),常用方法包括:
-
计算图拉普拉斯矩阵
- 定义度矩阵 \(D\),其为对角矩阵,对角线元素 \(D_{ii} = \sum_j W_{ij}\) 表示节点 \(i\) 的度。
- 拉普拉斯矩阵 \(L\) 定义为 \(L = D - W\)。
- 算法通常使用归一化拉普拉斯矩阵 \(L_{\text{norm}} = D^{-1/2} L D^{-1/2}\) 以提高数值稳定性。
-
求解广义特征值问题
- 目标是最小化低维嵌入 \(Y = \{y_1, ..., y_n\}\) 的代价函数:
\[ \min_Y \sum_{i,j} \|y_i - y_j\|^2 W_{ij} \]
该函数惩罚将相邻点(大 $ W_{ij} $)映射到低维后距离过远的情况。
- 通过约束 \(Y^T D Y = I\)(防止缩放退化)和 \(Y^T D \mathbf{1} = 0\)(防止平凡解),可推导出广义特征值问题:
\[ L y = \lambda D y \]
- 求解该特征值问题,取除最小特征值(通常为 0)对应的特征向量外的前 \(d\) 个最小特征值对应的特征向量 \(v_1, v_2, ..., v_d\),构成嵌入矩阵 \(Y = [v_1, v_2, ..., v_d] \in \mathbb{R}^{n \times d}\)。
- 得到低维嵌入
- 矩阵 \(Y\) 的第 \(i\) 行即为原始数据点 \(x_i\) 的低维表示 \(y_i \in \mathbb{R}^d\)。
- 由于特征向量彼此正交,嵌入空间能最大程度保留局部邻域结构。
关键点说明
- 拉普拉斯特征映射与谱聚类密切相关,但后者利用特征向量进行聚类,而前者用于降维。
- 算法依赖局部邻域的正确构建:若 \(k\) 或 \(ε\) 选择不当,可能破坏流形结构。
- 计算复杂度主要在于特征值分解,适用于中等规模数据。