线性回归的正则化:岭回归与Lasso回归的原理与优化
字数 1456 2025-10-30 08:32:20

线性回归的正则化:岭回归与Lasso回归的原理与优化

题目描述
线性回归模型通过最小二乘法拟合数据,但容易过拟合(尤其在高维数据中)。正则化通过惩罚模型复杂度提升泛化能力。岭回归(Ridge)和Lasso回归是两种经典正则化方法,区别在于惩罚项的形式:岭回归使用L2范数惩罚,Lasso使用L1范数惩罚。本题需解释两者的数学原理、优化目标、求解方法及效果差异。


1. 线性回归的过拟合问题

  • 标准线性回归目标:最小化残差平方和(RSS):
    \(\min_{\beta} \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2\)
  • 问题:当特征数\(p\)较大或特征高度相关时,系数\(\beta_j\)易过大,模型对噪声敏感,泛化能力下降。

2. 正则化的基本思想

  • 在损失函数中加入惩罚项,限制系数大小:
    \(\min_{\beta} \left[ \text{RSS} + \lambda \cdot \text{Penalty}(\beta) \right]\)
  • \(\lambda\)是超参数,控制惩罚强度:\(\lambda=0\)时退化为普通线性回归,\(\lambda \to \infty\)时系数趋近于0。

3. 岭回归(L2正则化)

  • 目标函数
    \(\min_{\beta} \left[ \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 + \lambda \sum_{j=1}^p \beta_j^2 \right]\)
    • 惩罚项为系数平方和(L2范数),迫使系数均匀缩小但保留所有特征。
  • 求解方法
    • 闭式解:\(\hat{\beta} = (X^T X + \lambda I)^{-1} X^T y\)\(I\)为单位矩阵)。
    • 几何解释:限制系数在超球体内,解是椭球与球体的切点。
  • 特点
    • 适用于特征相关性高的场景,解稳定且唯一;
    • 系数趋近于0但永不等于0,无法自动特征选择。

4. Lasso回归(L1正则化)

  • 目标函数
    \(\min_{\beta} \left[ \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 + \lambda \sum_{j=1}^p |\beta_j| \right]\)
    • 惩罚项为系数绝对值之和(L1范数),倾向于产生稀疏解。
  • 求解方法
    • 无闭式解,使用坐标下降法、最小角回归(LARS)等迭代算法。
    • 几何解释:限制系数在多边形顶点,易在角点处产生零值。
  • 特点
    • 能自动进行特征选择(部分系数严格为0),模型更简洁;
    • \(p > n\)时仍有效,但特征高度相关时可能随机选择一个特征。

5. 对比与优化细节

  • 效果差异
    • 岭回归:降低方差,防止过拟合,适合特征全部有用的情况。
    • Lasso回归:兼具特征选择与正则化,适合高维稀疏数据。
  • 超参数调优
    • 通过交叉验证选择最优\(\lambda\),平衡偏差与方差。
  • 扩展:弹性网(Elastic Net)结合L1和L2惩罚,解决Lasso在相关特征下的不稳定问题。

总结
岭回归和Lasso通过不同惩罚机制提升线性回归的泛化能力。理解其数学目标、几何意义及求解方法,有助于在实际问题中权衡模型复杂度与准确性。

线性回归的正则化:岭回归与Lasso回归的原理与优化 题目描述 线性回归模型通过最小二乘法拟合数据,但容易过拟合(尤其在高维数据中)。正则化通过惩罚模型复杂度提升泛化能力。岭回归(Ridge)和Lasso回归是两种经典正则化方法,区别在于惩罚项的形式:岭回归使用L2范数惩罚,Lasso使用L1范数惩罚。本题需解释两者的数学原理、优化目标、求解方法及效果差异。 1. 线性回归的过拟合问题 标准线性回归目标:最小化残差平方和(RSS): \(\min_ {\beta} \sum_ {i=1}^n (y_ i - \beta_ 0 - \sum_ {j=1}^p \beta_ j x_ {ij})^2\) 问题:当特征数\(p\)较大或特征高度相关时,系数\(\beta_ j\)易过大,模型对噪声敏感,泛化能力下降。 2. 正则化的基本思想 在损失函数中加入惩罚项,限制系数大小: \(\min_ {\beta} \left[ \text{RSS} + \lambda \cdot \text{Penalty}(\beta) \right ]\) \(\lambda\)是超参数,控制惩罚强度:\(\lambda=0\)时退化为普通线性回归,\(\lambda \to \infty\)时系数趋近于0。 3. 岭回归(L2正则化) 目标函数 : \(\min_ {\beta} \left[ \sum_ {i=1}^n (y_ i - \beta_ 0 - \sum_ {j=1}^p \beta_ j x_ {ij})^2 + \lambda \sum_ {j=1}^p \beta_ j^2 \right ]\) 惩罚项为系数平方和(L2范数),迫使系数均匀缩小但保留所有特征。 求解方法 : 闭式解:\(\hat{\beta} = (X^T X + \lambda I)^{-1} X^T y\)(\(I\)为单位矩阵)。 几何解释:限制系数在超球体内,解是椭球与球体的切点。 特点 : 适用于特征相关性高的场景,解稳定且唯一; 系数趋近于0但永不等于0,无法自动特征选择。 4. Lasso回归(L1正则化) 目标函数 : \(\min_ {\beta} \left[ \sum_ {i=1}^n (y_ i - \beta_ 0 - \sum_ {j=1}^p \beta_ j x_ {ij})^2 + \lambda \sum_ {j=1}^p |\beta_ j| \right ]\) 惩罚项为系数绝对值之和(L1范数),倾向于产生稀疏解。 求解方法 : 无闭式解,使用坐标下降法、最小角回归(LARS)等迭代算法。 几何解释:限制系数在多边形顶点,易在角点处产生零值。 特点 : 能自动进行特征选择(部分系数严格为0),模型更简洁; 当\(p > n\)时仍有效,但特征高度相关时可能随机选择一个特征。 5. 对比与优化细节 效果差异 : 岭回归:降低方差,防止过拟合,适合特征全部有用的情况。 Lasso回归:兼具特征选择与正则化,适合高维稀疏数据。 超参数调优 : 通过交叉验证选择最优\(\lambda\),平衡偏差与方差。 扩展 :弹性网(Elastic Net)结合L1和L2惩罚,解决Lasso在相关特征下的不稳定问题。 总结 岭回归和Lasso通过不同惩罚机制提升线性回归的泛化能力。理解其数学目标、几何意义及求解方法,有助于在实际问题中权衡模型复杂度与准确性。