核平滑(Kernel Smoothing)算法的原理与非参数回归过程
字数 2038 2025-11-29 11:03:35
核平滑(Kernel Smoothing)算法的原理与非参数回归过程
题目描述
核平滑是一种非参数回归方法,用于估计变量间的函数关系,无需预设函数形式(如线性或多项式)。其核心思想是通过对邻近数据点进行加权平均来预测目标值,权重由核函数决定。典型应用包括时间序列平滑、密度估计和散点图拟合。本题要求详解核平滑的原理、核函数的作用、带宽选择的影响以及具体计算步骤。
解题过程
1. 基本思想
- 问题场景:给定一组观测数据点 \(\{(x_i, y_i)\}_{i=1}^n\),目标是估计未知函数 \(f(x)\),使得 \(y_i = f(x_i) + \epsilon_i\)(\(\epsilon_i\) 为噪声)。
- 核心思路:对任意查询点 \(x\),其预测值 \(\hat{f}(x)\) 由邻近的 \(x_i\) 对应的 \(y_i\) 加权平均得到。距离 \(x\) 越近的 \(x_i\) 权重越高,权重由核函数 \(K\) 控制。
2. 核函数的作用与性质
- 核函数 \(K(u)\):对称非负函数,峰值在 \(u=0\) 处,随 \(|u|\) 增大而衰减。常用核包括高斯核 \(K(u) = \frac{1}{\sqrt{2\pi}} e^{-u^2/2}\) 和Epanechnikov核 \(K(u) = \frac{3}{4}(1-u^2)_+\)。
- 带宽 \(h\):平滑参数,控制邻域大小。\(h\) 越大,平滑程度越强(可能欠拟合);\(h\) 越小,对噪声越敏感(可能过拟合)。
- 权重计算:点 \(x_i\) 的权重为 \(w_i(x) = K\left(\frac{x - x_i}{h}\right)\),满足 \(\sum w_i = 1\)(归一化后)。
3. 核平滑的数学形式
- Nadaraya-Watson估计器(最常用形式):
\[ \hat{f}(x) = \frac{\sum_{i=1}^n K\left(\frac{x - x_i}{h}\right) y_i}{\sum_{i=1}^n K\left(\frac{x - x_i}{h}\right)} \]
- 分子:邻域内 \(y_i\) 的加权和;分母:权重之和,用于归一化。
- 物理意义:以 \(x\) 为中心、\(h\) 为半径的邻域内,\(y_i\) 的加权平均值。
4. 计算步骤
以预测点 \(x=0.5\) 为例,假设数据为 \(\{(0.2, 1.1), (0.4, 1.9), (0.6, 2.0), (0.8, 2.3)\}\),高斯核,带宽 \(h=0.2\):
- 计算距离:对每个 \(x_i\),计算 \(u_i = \frac{0.5 - x_i}{h}\):
- \(u_1 = (0.5-0.2)/0.2 = 1.5\)
- \(u_2 = (0.5-0.4)/0.2 = 0.5\)
- \(u_3 = (0.5-0.6)/0.2 = -0.5\)
- \(u_4 = (0.5-0.8)/0.2 = -1.5\)
- 核函数加权:代入高斯核 \(K(u) = e^{-u^2/2}/\sqrt{2\pi}\):
- \(K(u_1) = e^{-1.125}/2.5066 \approx 0.129\)
- \(K(u_2) = e^{-0.125}/2.5066 \approx 0.352\)
- \(K(u_3) = 0.352\)(对称性)
- \(K(u_4) = 0.129\)
- 归一化权重:总权重和 \(S = 0.129 + 0.352 + 0.352 + 0.129 = 0.962\),归一化权重 \(w_i = K(u_i)/S\)。
- 加权平均:
\[ \hat{f}(0.5) = \frac{0.129 \times 1.1 + 0.352 \times 1.9 + 0.352 \times 2.0 + 0.129 \times 2.3}{0.962} \approx 1.91 \]
5. 带宽选择的影响
- 理论依据:通过交叉验证或均方误差(MSE)最小化选择 \(h\)。
- 示例:若 \(h=0.1\),仅 \(x_2, x_3\) 有显著权重,估计值接近局部数据;若 \(h=0.5\),所有点权重相近,结果接近全局均值。
6. 扩展与变体
- 局部多项式回归:在邻域内拟合多项式(如线性),缓解边界偏差。
- 核密度估计:将核平滑用于概率密度估计,公式为 \(\hat{p}(x) = \frac{1}{nh}\sum K\left(\frac{x-x_i}{h}\right)\)。
总结
核平滑通过数据驱动的加权平均捕捉函数趋势,避免参数模型假设。其性能依赖带宽选择,需在偏差与方差间权衡。该方法灵活性强,适用于复杂模式的数据拟合。