线性回归的正则化：岭回归与Lasso回归的原理与优化

字数 1456 2025-10-30 08:32:20

线性回归的正则化：岭回归与Lasso回归的原理与优化

题目描述
线性回归模型通过最小二乘法拟合数据，但容易过拟合（尤其在高维数据中）。正则化通过惩罚模型复杂度提升泛化能力。岭回归（Ridge）和Lasso回归是两种经典正则化方法，区别在于惩罚项的形式：岭回归使用L2范数惩罚，Lasso使用L1范数惩罚。本题需解释两者的数学原理、优化目标、求解方法及效果差异。

1. 线性回归的过拟合问题

标准线性回归目标：最小化残差平方和（RSS）：
\(\min_{\beta} \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2\)
问题：当特征数\(p\)较大或特征高度相关时，系数\(\beta_j\)易过大，模型对噪声敏感，泛化能力下降。

2. 正则化的基本思想

在损失函数中加入惩罚项，限制系数大小：
\(\min_{\beta} \left[ \text{RSS} + \lambda \cdot \text{Penalty}(\beta) \right]\)
\(\lambda\)是超参数，控制惩罚强度：\(\lambda=0\)时退化为普通线性回归，\(\lambda \to \infty\)时系数趋近于0。

3. 岭回归（L2正则化）

目标函数：
\(\min_{\beta} \left[ \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 + \lambda \sum_{j=1}^p \beta_j^2 \right]\)
- 惩罚项为系数平方和（L2范数），迫使系数均匀缩小但保留所有特征。
求解方法：
- 闭式解：\(\hat{\beta} = (X^T X + \lambda I)^{-1} X^T y\)（\(I\)为单位矩阵）。
- 几何解释：限制系数在超球体内，解是椭球与球体的切点。
特点：
- 适用于特征相关性高的场景，解稳定且唯一；
- 系数趋近于0但永不等于0，无法自动特征选择。

4. Lasso回归（L1正则化）

目标函数：
\(\min_{\beta} \left[ \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 + \lambda \sum_{j=1}^p |\beta_j| \right]\)
- 惩罚项为系数绝对值之和（L1范数），倾向于产生稀疏解。
求解方法：
- 无闭式解，使用坐标下降法、最小角回归（LARS）等迭代算法。
- 几何解释：限制系数在多边形顶点，易在角点处产生零值。
特点：
- 能自动进行特征选择（部分系数严格为0），模型更简洁；
- 当\(p > n\)时仍有效，但特征高度相关时可能随机选择一个特征。

5. 对比与优化细节

效果差异：
- 岭回归：降低方差，防止过拟合，适合特征全部有用的情况。
- Lasso回归：兼具特征选择与正则化，适合高维稀疏数据。
超参数调优：
- 通过交叉验证选择最优\(\lambda\)，平衡偏差与方差。
扩展：弹性网（Elastic Net）结合L1和L2惩罚，解决Lasso在相关特征下的不稳定问题。

总结
岭回归和Lasso通过不同惩罚机制提升线性回归的泛化能力。理解其数学目标、几何意义及求解方法，有助于在实际问题中权衡模型复杂度与准确性。

线性回归的正则化：岭回归与Lasso回归的原理与优化题目描述线性回归模型通过最小二乘法拟合数据，但容易过拟合（尤其在高维数据中）。正则化通过惩罚模型复杂度提升泛化能力。岭回归（Ridge）和Lasso回归是两种经典正则化方法，区别在于惩罚项的形式：岭回归使用L2范数惩罚，Lasso使用L1范数惩罚。本题需解释两者的数学原理、优化目标、求解方法及效果差异。 1. 线性回归的过拟合问题标准线性回归目标：最小化残差平方和（RSS）： \(\min_ {\beta} \sum_ {i=1}^n (y_ i - \beta_ 0 - \sum_ {j=1}^p \beta_ j x_ {ij})^2\) 问题：当特征数\(p\)较大或特征高度相关时，系数\(\beta_ j\)易过大，模型对噪声敏感，泛化能力下降。 2. 正则化的基本思想在损失函数中加入惩罚项，限制系数大小： \(\min_ {\beta} \left[ \text{RSS} + \lambda \cdot \text{Penalty}(\beta) \right ]\) \(\lambda\)是超参数，控制惩罚强度：\(\lambda=0\)时退化为普通线性回归，\(\lambda \to \infty\)时系数趋近于0。 3. 岭回归（L2正则化）目标函数： \(\min_ {\beta} \left[ \sum_ {i=1}^n (y_ i - \beta_ 0 - \sum_ {j=1}^p \beta_ j x_ {ij})^2 + \lambda \sum_ {j=1}^p \beta_ j^2 \right ]\) 惩罚项为系数平方和（L2范数），迫使系数均匀缩小但保留所有特征。求解方法：闭式解：\(\hat{\beta} = (X^T X + \lambda I)^{-1} X^T y\)（\(I\)为单位矩阵）。几何解释：限制系数在超球体内，解是椭球与球体的切点。特点：适用于特征相关性高的场景，解稳定且唯一；系数趋近于0但永不等于0，无法自动特征选择。 4. Lasso回归（L1正则化）目标函数： \(\min_ {\beta} \left[ \sum_ {i=1}^n (y_ i - \beta_ 0 - \sum_ {j=1}^p \beta_ j x_ {ij})^2 + \lambda \sum_ {j=1}^p |\beta_ j| \right ]\) 惩罚项为系数绝对值之和（L1范数），倾向于产生稀疏解。求解方法：无闭式解，使用坐标下降法、最小角回归（LARS）等迭代算法。几何解释：限制系数在多边形顶点，易在角点处产生零值。特点：能自动进行特征选择（部分系数严格为0），模型更简洁；当\(p > n\)时仍有效，但特征高度相关时可能随机选择一个特征。 5. 对比与优化细节效果差异：岭回归：降低方差，防止过拟合，适合特征全部有用的情况。 Lasso回归：兼具特征选择与正则化，适合高维稀疏数据。超参数调优：通过交叉验证选择最优\(\lambda\)，平衡偏差与方差。扩展：弹性网（Elastic Net）结合L1和L2惩罚，解决Lasso在相关特征下的不稳定问题。总结岭回归和Lasso通过不同惩罚机制提升线性回归的泛化能力。理解其数学目标、几何意义及求解方法，有助于在实际问题中权衡模型复杂度与准确性。