局部加权线性回归(Locally Weighted Linear Regression, LOWESS/LWR)算法的原理与拟合过程
字数 1019 2025-11-17 07:13:27
局部加权线性回归(Locally Weighted Linear Regression, LOWESS/LWR)算法的原理与拟合过程
题目描述:
局部加权线性回归是一种非参数回归方法,用于处理数据中的非线性关系。与普通线性回归对所有数据点使用同一组参数不同,LOWESS为每个预测点单独训练一个加权线性模型,距离预测点较近的数据点被赋予更高的权重。请详细讲解该算法的核心思想、权重函数选择、参数优化过程以及预测步骤。
解题过程:
1. 算法核心思想
- LOWESS的核心是通过局部拟合来捕捉数据的非线性模式
- 对每个查询点x₀,在其邻域内拟合一个加权的线性回归模型
- 权重函数确保距离x₀较近的点对拟合结果影响更大,较远的点影响较小
2. 权重函数设计与选择
- 常用的权重函数是核函数,如高斯核、三次方核(Tricube)
- 高斯核:wᵢ = exp(-(xᵢ - x₀)² / (2τ²))
- 三次方核:wᵢ = (1 - |d|³)³,其中d = |xᵢ - x₀|/h,|d| > 1时wᵢ = 0
- 带宽参数h(或τ)控制邻域大小,影响平滑程度
3. 局部参数优化过程
对于每个查询点x₀,求解以下加权最小二乘问题:
min Σ wᵢ(x₀)(yᵢ - β₀ - β₁xᵢ)²
具体步骤:
- 计算权重矩阵W = diag(w₁(x₀), w₂(x₀), ..., wₙ(x₀))
- 设计矩阵X = [1, x](添加偏置列)
- 目标向量y = [y₁, y₂, ..., yₙ]ᵀ
- 求解正规方程:β̂ = (XᵀWX)⁻¹XᵀWy
4. 预测计算过程
- 对于查询点x₀,使用该点处拟合的参数进行预测:
ŷ₀ = β̂₀ + β̂₁x₀ - 由于每个点都需要重新拟合模型,计算复杂度较高
5. 带宽参数选择
- 带宽h是关键超参数,控制拟合的平滑度
- h过小:过拟合,拟合曲线波动剧烈
- h过大:欠拟合,拟合曲线过于平滑
- 可通过交叉验证选择最优带宽
6. 鲁棒性改进(迭代加权)
- 标准LOWESS对异常值敏感
- 可引入迭代重加权过程:
a) 第一次拟合得到残差rᵢ
b) 根据残差调整权重:wᵢ⁽ⁿᵉʷ⁾ = wᵢ⁽ᵒˡᵈ⁾·K(rᵢ/6MAD)
c) MAD为中位数绝对偏差
d) 重复拟合直到收敛
7. 算法特点总结
- 优点:无需预设函数关系,适应复杂非线性模式
- 缺点:计算量大,需要为每个预测点单独拟合模型
- 适用场景:数据量不大、关系复杂的回归问题