线性回归算法的原理与最小二乘法推导
字数 806 2025-10-27 08:13:39

线性回归算法的原理与最小二乘法推导

题目描述
线性回归是一种用于预测连续值变量的监督学习算法。其核心思想是找到一条直线(或超平面),使得所有样本点到该直线的垂直距离(误差)的平方和最小。给定包含n个样本的数据集,每个样本有d个特征,线性回归模型表示为:y = w₁x₁ + w₂x₂ + ... + w_dx_d + b(其中w为权重,b为偏置)。我们需要通过最小二乘法推导出最优参数w和b的解析解。

解题过程

  1. 问题形式化
    假设有n个样本的特征矩阵X(n×d维)和标签向量Y(n×1维),模型可简化为矩阵形式:Y = Xw + ε(其中w为d×1维权重向量,ε为误差项)。目标是最小化残差平方和(RSS):
    RSS = Σ(y_i - ŷ_i)² = (Y - Xw)ᵀ(Y - Xw)

  2. 损失函数展开
    将RSS展开为:
    RSS = YᵀY - YᵀXw - wᵀXᵀY + wᵀXᵀXw
    由于YᵀXw是标量(等于其转置wᵀXᵀY),可合并为:
    RSS = YᵀY - 2wᵀXᵀY + wᵀXᵀXw

  3. 对参数求导
    对w求偏导并令导数为零(凸函数最小值点):
    ∂RSS/∂w = -2XᵀY + 2XᵀXw = 0
    化简得正规方程(Normal Equation):
    XᵀXw = XᵀY

  4. 解析解推导
    若XᵀX可逆,两边左乘其逆矩阵得到最优解:
    w* = (XᵀX)⁻¹XᵀY
    若不可逆(如特征共线),需使用正则化或伪逆矩阵处理。

  5. 偏置项整合
    实际应用中,通过给X增加一列全1的特征,可将偏置b并入w中,此时模型简化为Y = Xw(其中X变为n×(d+1)维)。

  6. 几何解释
    最小二乘解等价于在特征张成的空间中,找到标签向量Y在该空间上的正交投影,残差向量与特征空间垂直。

注意事项

  • 若特征量过大(如d>n),需用梯度下降等数值解法
  • 特征缩放可加速求解过程
  • 需检查多重共线性(通过条件数判断)
线性回归算法的原理与最小二乘法推导 题目描述 线性回归是一种用于预测连续值变量的监督学习算法。其核心思想是找到一条直线(或超平面),使得所有样本点到该直线的垂直距离(误差)的平方和最小。给定包含n个样本的数据集,每个样本有d个特征,线性回归模型表示为:y = w₁x₁ + w₂x₂ + ... + w_ dx_ d + b(其中w为权重,b为偏置)。我们需要通过最小二乘法推导出最优参数w和b的解析解。 解题过程 问题形式化 假设有n个样本的特征矩阵X(n×d维)和标签向量Y(n×1维),模型可简化为矩阵形式:Y = Xw + ε(其中w为d×1维权重向量,ε为误差项)。目标是最小化残差平方和(RSS): RSS = Σ(y_ i - ŷ_ i)² = (Y - Xw)ᵀ(Y - Xw) 损失函数展开 将RSS展开为: RSS = YᵀY - YᵀXw - wᵀXᵀY + wᵀXᵀXw 由于YᵀXw是标量(等于其转置wᵀXᵀY),可合并为: RSS = YᵀY - 2wᵀXᵀY + wᵀXᵀXw 对参数求导 对w求偏导并令导数为零(凸函数最小值点): ∂RSS/∂w = -2XᵀY + 2XᵀXw = 0 化简得正规方程(Normal Equation): XᵀXw = XᵀY 解析解推导 若XᵀX可逆,两边左乘其逆矩阵得到最优解: w* = (XᵀX)⁻¹XᵀY 若不可逆(如特征共线),需使用正则化或伪逆矩阵处理。 偏置项整合 实际应用中,通过给X增加一列全1的特征,可将偏置b并入w中,此时模型简化为Y = Xw(其中X变为n×(d+1)维)。 几何解释 最小二乘解等价于在特征张成的空间中,找到标签向量Y在该空间上的正交投影,残差向量与特征空间垂直。 注意事项 若特征量过大(如d>n),需用梯度下降等数值解法 特征缩放可加速求解过程 需检查多重共线性(通过条件数判断)