奇异值分解(SVD)的原理与矩阵分解过程
字数 2095 2025-11-01 09:19:03
奇异值分解(SVD)的原理与矩阵分解过程
题目描述
奇异值分解(Singular Value Decomposition, SVD)是一种重要的矩阵分解方法,能将任意实数矩阵分解为三个特定矩阵的乘积。它在降维、推荐系统、图像压缩等领域有广泛应用。题目要求理解SVD的数学原理,掌握其分解步骤,并解释如何通过截断SVD实现降维。
解题过程
- SVD的定义
对于任意 \(m \times n\) 的实数矩阵 \(A\),其SVD分解形式为:
\[ A = U \Sigma V^T \]
- \(U\) 是 \(m \times m\) 的正交矩阵(左奇异向量矩阵),列向量为单位正交向量。
- \(\Sigma\) 是 \(m \times n\) 的矩形对角矩阵,对角线元素为非负的奇异值(按降序排列),其余元素为0。
- \(V^T\) 是 \(n \times n\) 的正交矩阵 \(V\) 的转置(右奇异向量矩阵),行向量为单位正交向量。
-
求解SVD的步骤
- 步骤1:计算 \(A^T A\) 和 \(A A^T\)
- 计算 \(n \times n\) 的矩阵 \(A^T A\) 和 \(m \times m\) 的矩阵 \(A A^T\)。这两个矩阵均为实对称半正定矩阵。
- 步骤2:求 \(V\) 和 \(U\) 的列向量
- 对 \(A^T A\) 进行特征分解,得到特征值 \(\lambda_i\) 和单位特征向量 \(v_i\),这些 \(v_i\) 构成 \(V\) 的列向量。
- 对 \(A A^T\) 进行特征分解,得到特征值 \(\lambda_i\) 和单位特征向量 \(u_i\),这些 \(u_i\) 构成 \(U\) 的列向量。
- 注意:\(A^T A\) 和 \(A A^T\) 的特征值相同(均为非负数),且非零特征值数量等于矩阵 \(A\) 的秩 \(r\)。
- 步骤3:构建 \(\Sigma\) 矩阵
- 将 \(A^T A\)(或 \(A A^T\))的特征值按降序排列,取平方根得到奇异值 \(\sigma_i = \sqrt{\lambda_i}\)。
- 将奇异值填充到 \(\Sigma\) 的对角线上:前 \(r\) 个对角元素为 \(\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0\),其余位置为0。
- 步骤1:计算 \(A^T A\) 和 \(A A^T\)
-
示例验证
以矩阵 \(A = \begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix}\) 为例:- 计算 \(A^T A = \begin{bmatrix} 1 & 1 \\ 1 & 2 \end{bmatrix}\),特征值为 \(\lambda_1 \approx 2.618, \lambda_2 \approx 0.382\),对应特征向量归一化后得 \(V\)。
- 计算 \(A A^T = \begin{bmatrix} 2 & 1 \\ 1 & 1 \end{bmatrix}\),特征值同 \(\lambda_1, \lambda_2\),特征向量归一化后得 \(U\)。
- 奇异值 \(\sigma_1 \approx \sqrt{2.618} \approx 1.618, \sigma_2 \approx \sqrt{0.382} \approx 0.618\),代入 \(\Sigma = \begin{bmatrix} 1.618 & 0 \\ 0 & 0.618 \end{bmatrix}\)。
- 验证 \(A = U \Sigma V^T\) 成立。
-
截断SVD与降维应用
- 保留前 \(k\) 个最大奇异值(\(k < r\)),将 \(U, \Sigma, V^T\) 截断为 \(U_k\)(\(m \times k\))、\(\Sigma_k\)(\(k \times k\))、\(V_k^T\)(\(k \times n\)),得到近似矩阵:
\[ A_k = U_k \Sigma_k V_k^T \]
- 截断后,\(A_k\) 是 \(A\) 在低维空间的最佳近似(基于Frobenius范数最小化误差),常用于去除噪声或压缩数据。例如在推荐系统中,用 \(A_k\) 预测用户对物品的评分。
- 几何解释
- SVD可视为对矩阵 \(A\) 的线性变换的分解:先通过 \(V^T\) 进行旋转,再通过 \(\Sigma\) 进行缩放,最后通过 \(U\) 进行旋转。奇异值决定了缩放程度。
关键点总结
- SVD将矩阵分解为旋转-缩放-旋转操作,奇异值表征矩阵的重要性。
- 截断SVD通过保留主要奇异值实现降维,平衡精度与效率。