核密度估计(Kernel Density Estimation, KDE)的带宽选择与优化过程
题目描述
核密度估计(KDE)是一种非参数密度估计方法,用于从数据样本中估计未知的概率密度函数(PDF)。其核心思想是:在每个数据点处放置一个核函数(如高斯核),并将所有核函数叠加并平均,形成一个平滑的密度估计曲线。
KDE 的性能高度依赖于带宽(Bandwidth) 参数的选择:带宽过小会导致估计过于波动(过拟合),带宽过大会导致估计过于平滑(欠拟合)。本题目将详细讲解 KDE 的数学原理、带宽的作用,以及如何通过优化准则(如交叉验证)选择最佳带宽。
解题过程
步骤1:KDE 的基本公式
给定独立同分布的样本 \(X_1, X_2, \dots, X_n\) 来自未知密度 \(f(x)\),KDE 的估计形式为:
\[\hat{f}_h(x) = \frac{1}{n h} \sum_{i=1}^n K\left( \frac{x - X_i}{h} \right) \]
其中:
- \(K(\cdot)\) 是核函数,通常满足 \(\int K(u) \, du = 1\),对称且非负(如标准高斯核 \(K(u) = \frac{1}{\sqrt{2\pi}} e^{-u^2/2}\))。
- \(h > 0\) 是带宽,控制核的宽度。
直观解释:每个数据点 \(X_i\) 对密度估计的贡献由核函数刻画,带宽 \(h\) 决定了每个贡献的扩散程度。
步骤2:带宽的重要性
带宽 \(h\) 是平滑参数:
- \(h \to 0\):每个核收缩到数据点本身,估计趋近于一组脉冲(过拟合,高方差)。
- \(h \to \infty\):所有核叠加成一个平坦的曲线,趋近于均匀分布(欠拟合,高偏差)。
选择最优 \(h\) 是在偏差和方差之间权衡,使得估计的均方误差(MSE)最小。
步骤3:均方误差分解与渐近理论
对于点 \(x\) 的密度估计 \(\hat{f}_h(x)\),定义 MSE:
\[\text{MSE}(x) = \mathbb{E}\left[ \left( \hat{f}_h(x) - f(x) \right)^2 \right] \]
在样本量 \(n \to \infty\) 且 \(h \to 0\)、\(nh \to \infty\) 的条件下,可推导渐近 MSE(AMSE):
\[\text{AMSE}(x) \approx \frac{h^4}{4} \left[ f''(x) \mu_2(K) \right]^2 + \frac{R(K) f(x)}{n h} \]
其中:
- \(\mu_2(K) = \int u^2 K(u) \, du\) 是核的二阶矩(衡量核的扩散)。
- \(R(K) = \int K(u)^2 \, du\) 是核的粗糙度(如高斯核的 \(R(K) = 1/(2\sqrt{\pi})\))。
第一项为偏差平方(随 \(h\) 增大而增大),第二项为方差(随 \(h\) 增大而减小)。
步骤4:积分均方误差(MISE)与最优带宽
全局误差度量使用积分均方误差(MISE):
\[\text{MISE}(h) = \int \mathbb{E}\left[ \left( \hat{f}_h(x) - f(x) \right)^2 \right] \, dx \]
其渐近形式(AMISE)为:
\[\text{AMISE}(h) = \frac{h^4}{4} \mu_2(K)^2 \int \left[ f''(x) \right]^2 \, dx + \frac{R(K)}{n h} \]
对 \(h\) 求导并令导数为零,得到渐近最优带宽:
\[h_{\text{AMISE}} = \left[ \frac{R(K)}{n \mu_2(K)^2 \int \left[ f''(x) \right]^2 \, dx} \right]^{1/5} \]
但公式中包含未知项 \(\int [f''(x)]^2 \, dx\),需要估计。
步骤5:带宽选择方法
由于最优带宽依赖于未知的真实密度 \(f\),实际中采用以下方法选择 \(h\):
5.1 规则法(Rule-of-Thumb)
假设真实密度 \(f\) 为正态分布 \(N(\mu, \sigma^2)\),则:
\[\int \left[ f''(x) \right]^2 \, dx = \frac{3}{8\sqrt{\pi} \sigma^5} \]
代入高斯核(\(\mu_2(K)=1\), \(R(K)=1/(2\sqrt{\pi})\))得:
\[h_{\text{rot}} = 1.06 \, \hat{\sigma} \, n^{-1/5} \]
其中 \(\hat{\sigma}\) 是样本标准差。对偏态或重尾数据,可使用四分位距(IQR)修正:
\[h_{\text{rot}} = 0.9 \min\left( \hat{\sigma}, \frac{\text{IQR}}{1.34} \right) n^{-1/5} \]
(称为 Silverman 规则)。
5.2 交叉验证法
通过数据驱动方式最小化 MISE 的估计:
- 最小二乘交叉验证(LSCV)
目标是最小化积分平方误差(ISE)的期望:
\[\text{ISE}(h) = \int \hat{f}_h(x)^2 \, dx - 2 \int \hat{f}_h(x) f(x) \, dx + \int f(x)^2 \, dx \]
忽略与 \(h\) 无关的第三项,用交叉验证估计第二项,得到:
\[\text{LSCV}(h) = \int \hat{f}_h(x)^2 \, dx - \frac{2}{n} \sum_{i=1}^n \hat{f}_{h,-i}(X_i) \]
其中 \(\hat{f}_{h,-i}\) 是剔除样本 \(X_i\) 后的 KDE。最小化 \(\text{LSCV}(h)\) 得到 \(h_{\text{LSCV}}\)。
- 留一法似然交叉验证(LCV)
最大化对数似然的交叉验证估计:
\[\text{LCV}(h) = \sum_{i=1}^n \log \hat{f}_{h,-i}(X_i) \]
最大化 \(\text{LCV}(h)\) 得到 \(h_{\text{LCV}}\)。但需注意在 \(h\) 过小时可能产生奇点。
5.3 插件法(Plug-in Method)
用初始估计替代 \(\int [f''(x)]^2 \, dx\)。常用 Sheather-Jones 插件法:
- 用规则法获得初始带宽 \(h_0\)。
- 估计 \(\psi_4 = \int f^{(4)}(x) f(x) \, dx\)(四阶导数泛函)通过核密度估计的导数。
- 代入公式迭代求解最优带宽。
插件法通常更稳定,但计算较复杂。
步骤6:多变量 KDE 的带宽选择
对于 \(d\) 维数据,带宽变为 \(d \times d\) 的对称正定矩阵 \(H\)。常用简化:
- 对角矩阵:\(H = \text{diag}(h_1^2, \dots, h_d^2)\),每个维度独立带宽。
- 球状带宽:\(H = h^2 I\),单个参数 \(h\)。
选择方法扩展自一维,但计算复杂度随维度增加而急剧上升。
步骤7:实际优化流程
以 LSCV 为例,实际步骤为:
- 给定样本 \(X_1, \dots, X_n\),在一组候选带宽 \(h_1, h_2, \dots, h_m\) 上计算 LSCV 值。
- 对每个 \(h_j\):
- 计算全样本 KDE \(\hat{f}_h(x)\) 并数值积分得 \(\int \hat{f}_h(x)^2 \, dx\)。
- 对每个 \(i\),计算 \(\hat{f}_{h,-i}(X_i)\)(可通过快速公式避免重复计算)。
- 计算 \(\text{LSCV}(h_j)\)。
- 选择使 \(\text{LSCV}(h_j)\) 最小的 \(h_j\) 作为最优带宽。
总结
核密度估计的带宽选择是平衡偏差与方差的关键步骤。通过规则法、交叉验证或插件法,可以数据驱动地选择合适带宽。在实际应用中,Silverman 规则因其简单常用作初值,而交叉验证更灵活但计算量较大。理解这些方法背后的误差分解理论,有助于针对不同数据特点选择合适策略,获得更准确的密度估计。