非参数回归:局部多项式回归(Local Polynomial Regression)的核加权拟合与边界修正过程
题目描述
局部多项式回归是一种非参数回归方法,用于估计输入变量 \(x\) 与输出变量 \(y\) 之间的复杂关系,无需假设全局函数形式。其核心思想是:在目标点 \(x_0\) 的邻域内,用一个 \(p\) 次多项式进行局部加权最小二乘拟合,权重由核函数根据距离决定。相较于局部加权线性回归(LOWESS/LWR),局部多项式回归通过更高次多项式更好地捕捉局部曲率,尤其在边界区域具有更优的偏差性质。本题将详细讲解其数学模型、加权最小二乘求解、核函数与带宽选择,以及边界偏差修正的原理。
1. 基本思想与模型设定
假设观测数据为 \(\{ (x_i, y_i) \}_{i=1}^n\),在任意目标点 \(x_0\) 处,我们假设局部关系可用 \(p\) 次多项式近似:
\[y_i \approx \beta_0 + \beta_1 (x_i - x_0) + \beta_2 (x_i - x_0)^2 + \cdots + \beta_p (x_i - x_0)^p + \varepsilon_i, \]
其中 \(\varepsilon_i\) 为误差项。令
\[X = \begin{bmatrix} 1 & (x_1 - x_0) & (x_1 - x_0)^2 & \cdots & (x_1 - x_0)^p \\ 1 & (x_2 - x_0) & (x_2 - x_0)^2 & \cdots & (x_2 - x_0)^p \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & (x_n - x_0) & (x_n - x_0)^2 & \cdots & (x_n - x_0)^p \end{bmatrix}, \quad \beta = [\beta_0, \beta_1, \dots, \beta_p]^\top, \]
则局部模型可写为 \(y \approx X\beta\)。
2. 核加权与局部最小二乘
为强调 \(x_0\) 附近点的作用,引入核函数 \(K(\cdot)\) 和带宽 \(h\),定义权重 \(w_i = K\left( \frac{x_i - x_0}{h} \right)\)。常用核函数为Epanechnikov核、高斯核等。加权最小二乘的目标是极小化:
\[J(\beta) = \sum_{i=1}^n w_i \left[ y_i - \sum_{j=0}^p \beta_j (x_i - x_0)^j \right]^2. \]
写成矩阵形式,令 \(W = \text{diag}(w_1, \dots, w_n)\),则:
\[J(\beta) = (y - X\beta)^\top W (y - X\beta). \]
对 \(\beta\) 求导并令为零,得到正规方程:
\[X^\top W X \beta = X^\top W y. \]
若 \(X^\top W X\) 可逆,解为:
\[\hat{\beta} = (X^\top W X)^{-1} X^\top W y. \]
在 \(x_0\) 处的拟合值为 \(\hat{f}(x_0) = \hat{\beta}_0\)(即多项式在 \(x_i = x_0\) 时的常数项)。对每个目标点重复此过程,得到全局估计曲线。
3. 带宽选择与核函数的作用
- 带宽 \(h\):控制邻域大小。\(h\) 过大则估计过平滑(高偏差、低方差),过小则欠平滑(低偏差、高方差)。常用交叉验证(如留一法)选择最优 \(h\)。
- 核函数 \(K\):决定权重随距离衰减的方式。通常要求对称、非负、积分为1。Epanechnikov核 \(K(u) = \frac{3}{4}(1-u^2)_+\) 在均方误差意义下最优;高斯核 \(K(u) = \frac{1}{\sqrt{2\pi}} e^{-u^2/2}\) 无限支撑,计算稳定。
- 多项式阶数 \(p\):实用中 \(p=1\)(局部线性)或 \(p=2\)(局部二次)。更高阶增加计算量,且可能过拟合。
4. 边界偏差修正与等价核解释
在数据边界区域,邻域内点分布不对称,局部常数或线性拟合会产生较大偏差。局部多项式回归通过提高阶数 \(p\) 自动修正边界偏差。数学上可证明:
- 局部常数拟合(\(p=0\),即Nadaraya-Watson估计)的边界偏差为 \(O(h)\)。
- 局部线性拟合(\(p=1\))的边界偏差降至 \(O(h^2)\),且方差与内点同阶。
- 一般地,使用奇数次多项式(如 \(p=1,3\))可在边界保持偏差与方差平衡。
从线性平滑视角,拟合值可写为:
\[\hat{f}(x_0) = \sum_{i=1}^n l_i(x_0) y_i, \]
其中 \(l_i(x_0) = e_1^\top (X^\top W X)^{-1} x_i^* w_i\),\(e_1 = [1,0,\dots,0]^\top\),\(x_i^*\) 为 \(X\) 的第 \(i\) 行。\(\{l_i(x_0)\}\) 称为等价核,表现为一个局部加权的 \(p\) 次多项式核。
5. 算法步骤总结
- 输入:数据 \(\{(x_i, y_i)\}\),核函数 \(K\),带宽 \(h\),多项式阶数 \(p\)。
- 循环每个目标点 \(x_0\)(通常取为每个观测点或均匀网格点):
a. 计算权重 \(w_i = K((x_i - x_0)/h)\)。
b. 构建设计矩阵 \(X\) 和权重矩阵 \(W\)。
c. 求解加权最小二乘 \(\hat{\beta} = (X^\top W X)^{-1} X^\top W y\)。
d. 得到拟合值 \(\hat{f}(x_0) = \hat{\beta}_0\)。 - 输出:拟合曲线 \(\hat{f}(x)\) 或预测值。
6. 与局部加权线性回归(LOWESS/LWR)的关系
- LOWESS通常特指局部线性回归(\(p=1\))且使用稳健迭代重加权(抵御异常值)。
- 局部多项式回归是其一般化,通过调整 \(p\) 灵活控制局部近似精度,尤其适合曲率变化大或边界区域。
7. 实际应用注意事项
- 计算量随 \(n\) 和 \(p\) 增大,可用快速算法(如kd树近邻搜索)加速。
- 带宽 \(h\) 可自适应(变带宽),在数据稀疏区增大、密集区减小。
- 对于多维回归,可扩展为局部多项式曲面拟合,但需注意维数灾难。
通过以上步骤,局部多项式回归实现了对任意光滑函数的灵活拟合,并在边界保持良好性质,是非参数回归中的重要工具。