核平滑(Kernel Smoothing)算法的原理与非参数回归过程
字数 1029 2025-11-26 00:32:34
核平滑(Kernel Smoothing)算法的原理与非参数回归过程
题目描述
核平滑是一种经典的非参数回归方法,用于估计未知的函数关系。假设有一组观测数据点{(x₁, y₁), (x₂, y₂), ..., (xₙ, yₙ)},目标是找到一个函数m(x)使得yᵢ = m(xᵢ) + εᵢ,其中εᵢ是噪声项。核平滑通过局部加权平均来估计m(x),特别适用于数据分布未知或存在非线性模式的情况。
解题过程
-
核函数选择
首先选择一个非负的核函数K(u),满足:- ∫K(u)du = 1(归一化)
- K(u) = K(-u)(对称性)
- 通常具有单峰性质
常用核函数包括: - 高斯核:K(u) = (1/√(2π))exp(-u²/2)
- Epanechnikov核:K(u) = 3/4(1-u²) for |u|≤1
- 均匀核:K(u) = 1/2 for |u|≤1
-
带宽确定
带宽h控制平滑程度,是最关键参数:- 较小h:过拟合,估计曲线波动大
- 较大h:欠拟合,估计曲线过于平滑
通过交叉验证或插件法选择最优h:
CV(h) = Σ[yᵢ - m̂₋ᵢ(xᵢ)]² # 留一交叉验证其中m̂₋ᵢ表示排除第i个点后的估计
-
Nadaraya-Watson估计
对任意点x的函数值估计为加权平均:m̂(x) = Σ[K((x-xᵢ)/h) · yᵢ] / Σ[K((x-xᵢ)/h)]分子是加权输出和,分母是权重归一化项。计算步骤:
a. 对每个数据点xᵢ,计算权重wᵢ = K((x-xᵢ)/h)
b. 归一化权重:w̃ᵢ = wᵢ / Σwⱼ
c. 计算加权平均:m̂(x) = Σw̃ᵢyᵢ -
局部线性推广
为解决边界偏差问题,可扩展为局部线性平滑:- 在x邻域内拟合线性模型min Σ[K((x-xᵢ)/h)(yᵢ - β₀ - β₁(xᵢ-x))²]
- 通过加权最小二乘法求解(β₀, β₁)
- 最终估计m̂(x) = β₀
-
计算实例演示
假设数据点:(1,2), (2,4), (3,5),使用高斯核h=1,估计x=2.5处的值:
a. 计算权重:
K((2.5-1)/1) = 0.1295
K((2.5-2)/1) = 0.3521
K((2.5-3)/1) = 0.3521
b. 归一化:总权重0.8337,归一化权重[0.155, 0.422, 0.422]
c. 加权平均:m̂(2.5) = 0.155×2 + 0.422×4 + 0.422×5 = 4.056
关键特性
- 无需预设函数形式,完全由数据驱动
- 计算复杂度随数据量线性增长
- 带宽选择对结果影响显著
- 在数据稀疏区域估计方差较大