非参数回归:局部多项式回归(Local Polynomial Regression)的核加权拟合与边界修正过程
字数 2926 2025-12-11 17:19:24

非参数回归:局部多项式回归(Local Polynomial Regression)的核加权拟合与边界修正过程


题目描述
局部多项式回归是一种非参数回归方法,用于估计输入变量 \(x\) 与输出变量 \(y\) 之间的复杂关系,无需假设全局函数形式。其核心思想是:在目标点 \(x_0\) 的邻域内,用一个 \(p\) 次多项式进行局部加权最小二乘拟合,权重由核函数根据距离决定。相较于局部加权线性回归(LOWESS/LWR),局部多项式回归通过更高次多项式更好地捕捉局部曲率,尤其在边界区域具有更优的偏差性质。本题将详细讲解其数学模型、加权最小二乘求解、核函数与带宽选择,以及边界偏差修正的原理。


1. 基本思想与模型设定
假设观测数据为 \(\{ (x_i, y_i) \}_{i=1}^n\),在任意目标点 \(x_0\) 处,我们假设局部关系可用 \(p\) 次多项式近似:

\[y_i \approx \beta_0 + \beta_1 (x_i - x_0) + \beta_2 (x_i - x_0)^2 + \cdots + \beta_p (x_i - x_0)^p + \varepsilon_i, \]

其中 \(\varepsilon_i\) 为误差项。令

\[X = \begin{bmatrix} 1 & (x_1 - x_0) & (x_1 - x_0)^2 & \cdots & (x_1 - x_0)^p \\ 1 & (x_2 - x_0) & (x_2 - x_0)^2 & \cdots & (x_2 - x_0)^p \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & (x_n - x_0) & (x_n - x_0)^2 & \cdots & (x_n - x_0)^p \end{bmatrix}, \quad \beta = [\beta_0, \beta_1, \dots, \beta_p]^\top, \]

则局部模型可写为 \(y \approx X\beta\)


2. 核加权与局部最小二乘
为强调 \(x_0\) 附近点的作用,引入核函数 \(K(\cdot)\) 和带宽 \(h\),定义权重 \(w_i = K\left( \frac{x_i - x_0}{h} \right)\)。常用核函数为Epanechnikov核、高斯核等。加权最小二乘的目标是极小化:

\[J(\beta) = \sum_{i=1}^n w_i \left[ y_i - \sum_{j=0}^p \beta_j (x_i - x_0)^j \right]^2. \]

写成矩阵形式,令 \(W = \text{diag}(w_1, \dots, w_n)\),则:

\[J(\beta) = (y - X\beta)^\top W (y - X\beta). \]

\(\beta\) 求导并令为零,得到正规方程:

\[X^\top W X \beta = X^\top W y. \]

\(X^\top W X\) 可逆,解为:

\[\hat{\beta} = (X^\top W X)^{-1} X^\top W y. \]

\(x_0\) 处的拟合值为 \(\hat{f}(x_0) = \hat{\beta}_0\)(即多项式在 \(x_i = x_0\) 时的常数项)。对每个目标点重复此过程,得到全局估计曲线。


3. 带宽选择与核函数的作用

  • 带宽 \(h\):控制邻域大小。\(h\) 过大则估计过平滑(高偏差、低方差),过小则欠平滑(低偏差、高方差)。常用交叉验证(如留一法)选择最优 \(h\)
  • 核函数 \(K\):决定权重随距离衰减的方式。通常要求对称、非负、积分为1。Epanechnikov核 \(K(u) = \frac{3}{4}(1-u^2)_+\) 在均方误差意义下最优;高斯核 \(K(u) = \frac{1}{\sqrt{2\pi}} e^{-u^2/2}\) 无限支撑,计算稳定。
  • 多项式阶数 \(p\):实用中 \(p=1\)(局部线性)或 \(p=2\)(局部二次)。更高阶增加计算量,且可能过拟合。

4. 边界偏差修正与等价核解释
在数据边界区域,邻域内点分布不对称,局部常数或线性拟合会产生较大偏差。局部多项式回归通过提高阶数 \(p\) 自动修正边界偏差。数学上可证明:

  • 局部常数拟合(\(p=0\),即Nadaraya-Watson估计)的边界偏差为 \(O(h)\)
  • 局部线性拟合(\(p=1\))的边界偏差降至 \(O(h^2)\),且方差与内点同阶。
  • 一般地,使用奇数次多项式(如 \(p=1,3\))可在边界保持偏差与方差平衡。

从线性平滑视角,拟合值可写为:

\[\hat{f}(x_0) = \sum_{i=1}^n l_i(x_0) y_i, \]

其中 \(l_i(x_0) = e_1^\top (X^\top W X)^{-1} x_i^* w_i\)\(e_1 = [1,0,\dots,0]^\top\)\(x_i^*\)\(X\) 的第 \(i\) 行。\(\{l_i(x_0)\}\) 称为等价核,表现为一个局部加权的 \(p\) 次多项式核。


5. 算法步骤总结

  1. 输入:数据 \(\{(x_i, y_i)\}\),核函数 \(K\),带宽 \(h\),多项式阶数 \(p\)
  2. 循环每个目标点 \(x_0\)(通常取为每个观测点或均匀网格点):
    a. 计算权重 \(w_i = K((x_i - x_0)/h)\)
    b. 构建设计矩阵 \(X\) 和权重矩阵 \(W\)
    c. 求解加权最小二乘 \(\hat{\beta} = (X^\top W X)^{-1} X^\top W y\)
    d. 得到拟合值 \(\hat{f}(x_0) = \hat{\beta}_0\)
  3. 输出:拟合曲线 \(\hat{f}(x)\) 或预测值。

6. 与局部加权线性回归(LOWESS/LWR)的关系

  • LOWESS通常特指局部线性回归(\(p=1\))且使用稳健迭代重加权(抵御异常值)。
  • 局部多项式回归是其一般化,通过调整 \(p\) 灵活控制局部近似精度,尤其适合曲率变化大或边界区域。

7. 实际应用注意事项

  • 计算量随 \(n\)\(p\) 增大,可用快速算法(如kd树近邻搜索)加速。
  • 带宽 \(h\) 可自适应(变带宽),在数据稀疏区增大、密集区减小。
  • 对于多维回归,可扩展为局部多项式曲面拟合,但需注意维数灾难。

通过以上步骤,局部多项式回归实现了对任意光滑函数的灵活拟合,并在边界保持良好性质,是非参数回归中的重要工具。

非参数回归:局部多项式回归(Local Polynomial Regression)的核加权拟合与边界修正过程 题目描述 局部多项式回归是一种非参数回归方法,用于估计输入变量 \(x\) 与输出变量 \(y\) 之间的复杂关系,无需假设全局函数形式。其核心思想是:在目标点 \(x_ 0\) 的邻域内,用一个 \(p\) 次多项式进行局部加权最小二乘拟合,权重由核函数根据距离决定。相较于局部加权线性回归(LOWESS/LWR),局部多项式回归通过更高次多项式更好地捕捉局部曲率,尤其在边界区域具有更优的偏差性质。本题将详细讲解其数学模型、加权最小二乘求解、核函数与带宽选择,以及边界偏差修正的原理。 1. 基本思想与模型设定 假设观测数据为 \(\{ (x_ i, y_ i) \}_ {i=1}^n\),在任意目标点 \(x_ 0\) 处,我们假设局部关系可用 \(p\) 次多项式近似: \[ y_ i \approx \beta_ 0 + \beta_ 1 (x_ i - x_ 0) + \beta_ 2 (x_ i - x_ 0)^2 + \cdots + \beta_ p (x_ i - x_ 0)^p + \varepsilon_ i, \] 其中 \(\varepsilon_ i\) 为误差项。令 \[ X = \begin{bmatrix} 1 & (x_ 1 - x_ 0) & (x_ 1 - x_ 0)^2 & \cdots & (x_ 1 - x_ 0)^p \\ 1 & (x_ 2 - x_ 0) & (x_ 2 - x_ 0)^2 & \cdots & (x_ 2 - x_ 0)^p \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & (x_ n - x_ 0) & (x_ n - x_ 0)^2 & \cdots & (x_ n - x_ 0)^p \end{bmatrix}, \quad \beta = [ \beta_ 0, \beta_ 1, \dots, \beta_ p ]^\top, \] 则局部模型可写为 \(y \approx X\beta\)。 2. 核加权与局部最小二乘 为强调 \(x_ 0\) 附近点的作用,引入核函数 \(K(\cdot)\) 和带宽 \(h\),定义权重 \(w_ i = K\left( \frac{x_ i - x_ 0}{h} \right)\)。常用核函数为Epanechnikov核、高斯核等。加权最小二乘的目标是极小化: \[ J(\beta) = \sum_ {i=1}^n w_ i \left[ y_ i - \sum_ {j=0}^p \beta_ j (x_ i - x_ 0)^j \right ]^2. \] 写成矩阵形式,令 \(W = \text{diag}(w_ 1, \dots, w_ n)\),则: \[ J(\beta) = (y - X\beta)^\top W (y - X\beta). \] 对 \(\beta\) 求导并令为零,得到正规方程: \[ X^\top W X \beta = X^\top W y. \] 若 \(X^\top W X\) 可逆,解为: \[ \hat{\beta} = (X^\top W X)^{-1} X^\top W y. \] 在 \(x_ 0\) 处的拟合值为 \(\hat{f}(x_ 0) = \hat{\beta}_ 0\)(即多项式在 \(x_ i = x_ 0\) 时的常数项)。对每个目标点重复此过程,得到全局估计曲线。 3. 带宽选择与核函数的作用 带宽 \(h\) :控制邻域大小。\(h\) 过大则估计过平滑(高偏差、低方差),过小则欠平滑(低偏差、高方差)。常用交叉验证(如留一法)选择最优 \(h\)。 核函数 \(K\) :决定权重随距离衰减的方式。通常要求对称、非负、积分为1。Epanechnikov核 \(K(u) = \frac{3}{4}(1-u^2)_ +\) 在均方误差意义下最优;高斯核 \(K(u) = \frac{1}{\sqrt{2\pi}} e^{-u^2/2}\) 无限支撑,计算稳定。 多项式阶数 \(p\) :实用中 \(p=1\)(局部线性)或 \(p=2\)(局部二次)。更高阶增加计算量,且可能过拟合。 4. 边界偏差修正与等价核解释 在数据边界区域,邻域内点分布不对称,局部常数或线性拟合会产生较大偏差。局部多项式回归通过提高阶数 \(p\) 自动修正边界偏差。数学上可证明: 局部常数拟合(\(p=0\),即Nadaraya-Watson估计)的边界偏差为 \(O(h)\)。 局部线性拟合(\(p=1\))的边界偏差降至 \(O(h^2)\),且方差与内点同阶。 一般地,使用奇数次多项式(如 \(p=1,3\))可在边界保持偏差与方差平衡。 从线性平滑视角,拟合值可写为: \[ \hat{f}(x_ 0) = \sum_ {i=1}^n l_ i(x_ 0) y_ i, \] 其中 \(l_ i(x_ 0) = e_ 1^\top (X^\top W X)^{-1} x_ i^* w_ i\),\(e_ 1 = [ 1,0,\dots,0]^\top\),\(x_ i^* \) 为 \(X\) 的第 \(i\) 行。\(\{l_ i(x_ 0)\}\) 称为等价核,表现为一个局部加权的 \(p\) 次多项式核。 5. 算法步骤总结 输入 :数据 \(\{(x_ i, y_ i)\}\),核函数 \(K\),带宽 \(h\),多项式阶数 \(p\)。 循环每个目标点 \(x_ 0\) (通常取为每个观测点或均匀网格点): a. 计算权重 \(w_ i = K((x_ i - x_ 0)/h)\)。 b. 构建设计矩阵 \(X\) 和权重矩阵 \(W\)。 c. 求解加权最小二乘 \(\hat{\beta} = (X^\top W X)^{-1} X^\top W y\)。 d. 得到拟合值 \(\hat{f}(x_ 0) = \hat{\beta}_ 0\)。 输出 :拟合曲线 \(\hat{f}(x)\) 或预测值。 6. 与局部加权线性回归(LOWESS/LWR)的关系 LOWESS通常特指局部线性回归(\(p=1\))且使用稳健迭代重加权(抵御异常值)。 局部多项式回归是其一般化,通过调整 \(p\) 灵活控制局部近似精度,尤其适合曲率变化大或边界区域。 7. 实际应用注意事项 计算量随 \(n\) 和 \(p\) 增大,可用快速算法(如kd树近邻搜索)加速。 带宽 \(h\) 可自适应(变带宽),在数据稀疏区增大、密集区减小。 对于多维回归,可扩展为局部多项式曲面拟合,但需注意维数灾难。 通过以上步骤,局部多项式回归实现了对任意光滑函数的灵活拟合,并在边界保持良好性质,是非参数回归中的重要工具。