线性回归算法的原理与最小二乘法推导
字数 806 2025-10-27 08:13:39
线性回归算法的原理与最小二乘法推导
题目描述
线性回归是一种用于预测连续值变量的监督学习算法。其核心思想是找到一条直线(或超平面),使得所有样本点到该直线的垂直距离(误差)的平方和最小。给定包含n个样本的数据集,每个样本有d个特征,线性回归模型表示为:y = w₁x₁ + w₂x₂ + ... + w_dx_d + b(其中w为权重,b为偏置)。我们需要通过最小二乘法推导出最优参数w和b的解析解。
解题过程
-
问题形式化
假设有n个样本的特征矩阵X(n×d维)和标签向量Y(n×1维),模型可简化为矩阵形式:Y = Xw + ε(其中w为d×1维权重向量,ε为误差项)。目标是最小化残差平方和(RSS):
RSS = Σ(y_i - ŷ_i)² = (Y - Xw)ᵀ(Y - Xw) -
损失函数展开
将RSS展开为:
RSS = YᵀY - YᵀXw - wᵀXᵀY + wᵀXᵀXw
由于YᵀXw是标量(等于其转置wᵀXᵀY),可合并为:
RSS = YᵀY - 2wᵀXᵀY + wᵀXᵀXw -
对参数求导
对w求偏导并令导数为零(凸函数最小值点):
∂RSS/∂w = -2XᵀY + 2XᵀXw = 0
化简得正规方程(Normal Equation):
XᵀXw = XᵀY -
解析解推导
若XᵀX可逆,两边左乘其逆矩阵得到最优解:
w* = (XᵀX)⁻¹XᵀY
若不可逆(如特征共线),需使用正则化或伪逆矩阵处理。 -
偏置项整合
实际应用中,通过给X增加一列全1的特征,可将偏置b并入w中,此时模型简化为Y = Xw(其中X变为n×(d+1)维)。 -
几何解释
最小二乘解等价于在特征张成的空间中,找到标签向量Y在该空间上的正交投影,残差向量与特征空间垂直。
注意事项
- 若特征量过大(如d>n),需用梯度下降等数值解法
- 特征缩放可加速求解过程
- 需检查多重共线性(通过条件数判断)