线性回归的正则化:岭回归与Lasso回归的原理与优化
字数 1456 2025-10-30 08:32:20
线性回归的正则化:岭回归与Lasso回归的原理与优化
题目描述
线性回归模型通过最小二乘法拟合数据,但容易过拟合(尤其在高维数据中)。正则化通过惩罚模型复杂度提升泛化能力。岭回归(Ridge)和Lasso回归是两种经典正则化方法,区别在于惩罚项的形式:岭回归使用L2范数惩罚,Lasso使用L1范数惩罚。本题需解释两者的数学原理、优化目标、求解方法及效果差异。
1. 线性回归的过拟合问题
- 标准线性回归目标:最小化残差平方和(RSS):
\(\min_{\beta} \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2\) - 问题:当特征数\(p\)较大或特征高度相关时,系数\(\beta_j\)易过大,模型对噪声敏感,泛化能力下降。
2. 正则化的基本思想
- 在损失函数中加入惩罚项,限制系数大小:
\(\min_{\beta} \left[ \text{RSS} + \lambda \cdot \text{Penalty}(\beta) \right]\) - \(\lambda\)是超参数,控制惩罚强度:\(\lambda=0\)时退化为普通线性回归,\(\lambda \to \infty\)时系数趋近于0。
3. 岭回归(L2正则化)
- 目标函数:
\(\min_{\beta} \left[ \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 + \lambda \sum_{j=1}^p \beta_j^2 \right]\)- 惩罚项为系数平方和(L2范数),迫使系数均匀缩小但保留所有特征。
- 求解方法:
- 闭式解:\(\hat{\beta} = (X^T X + \lambda I)^{-1} X^T y\)(\(I\)为单位矩阵)。
- 几何解释:限制系数在超球体内,解是椭球与球体的切点。
- 特点:
- 适用于特征相关性高的场景,解稳定且唯一;
- 系数趋近于0但永不等于0,无法自动特征选择。
4. Lasso回归(L1正则化)
- 目标函数:
\(\min_{\beta} \left[ \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 + \lambda \sum_{j=1}^p |\beta_j| \right]\)- 惩罚项为系数绝对值之和(L1范数),倾向于产生稀疏解。
- 求解方法:
- 无闭式解,使用坐标下降法、最小角回归(LARS)等迭代算法。
- 几何解释:限制系数在多边形顶点,易在角点处产生零值。
- 特点:
- 能自动进行特征选择(部分系数严格为0),模型更简洁;
- 当\(p > n\)时仍有效,但特征高度相关时可能随机选择一个特征。
5. 对比与优化细节
- 效果差异:
- 岭回归:降低方差,防止过拟合,适合特征全部有用的情况。
- Lasso回归:兼具特征选择与正则化,适合高维稀疏数据。
- 超参数调优:
- 通过交叉验证选择最优\(\lambda\),平衡偏差与方差。
- 扩展:弹性网(Elastic Net)结合L1和L2惩罚,解决Lasso在相关特征下的不稳定问题。
总结
岭回归和Lasso通过不同惩罚机制提升线性回归的泛化能力。理解其数学目标、几何意义及求解方法,有助于在实际问题中权衡模型复杂度与准确性。