高斯核密度估计(Kernel Density Estimation, KDE)的原理与计算过程
题目描述
高斯核密度估计是一种非参数概率密度估计方法,用于从有限样本中推断数据的概率密度函数。与参数化方法(如假设数据服从高斯分布)不同,KDE无需预设分布形式,而是通过在每个数据点放置一个核函数(如高斯核),并将所有核函数叠加来平滑地估计密度。核心问题是如何通过样本点\(x_1, x_2, \dots, x_n\)估计任意点\(x\)的概率密度\(p(x)\)。
解题过程
- 基本思想
- 假设每个样本点对密度估计有局部贡献,贡献形式是以该点为中心的核函数(如高斯函数)。
- 最终密度估计是所有核函数的平均值:
\[ \hat{p}(x) = \frac{1}{n} \sum_{i=1}^n K\left( \frac{x - x_i}{h} \right) \]
其中$K$是核函数(非负、积分为1),$h$是带宽(平滑参数),控制核的宽度。
- 选择高斯核函数
- 高斯核是最常用的核函数,其形式为:
\[ K(u) = \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}u^2} \]
- 代入基本公式,得到高斯KDE的表达式:
\[ \hat{p}(x) = \frac{1}{n h} \sum_{i=1}^n \frac{1}{\sqrt{2\pi}} \exp\left( -\frac{(x - x_i)^2}{2h^2} \right) \]
这里带宽$h$即高斯核的标准差。
-
带宽\(h\)的关键作用
- \(h\)过大:估计过于平滑,可能掩盖数据的真实结构(欠拟合)。
- \(h\)过小:估计出现过多噪声尖峰,对采样误差敏感(过拟合)。
- 常用选择方法:
- 经验法则:对于高斯分布数据,最优带宽约\(h \approx 1.06 \hat{\sigma} n^{-1/5}\)(\(\hat{\sigma}\)为样本标准差)。
- 交叉验证:通过最大化验证集似然或最小化均方误差选择\(h\)。
-
计算步骤示例
假设样本为\([1.2, 2.0, 2.5]\),带宽\(h=0.5\),估计点\(x=2.0\)的密度:- 步骤1:对每个样本点计算高斯核值:
\[ K\left( \frac{2.0-1.2}{0.5} \right) = \frac{1}{\sqrt{2\pi}} e^{-\frac{0.64}{2}} \approx 0.278, \quad K\left( \frac{2.0-2.0}{0.5} \right) \approx 0.798, \quad K\left( \frac{2.0-2.5}{0.5} \right) \approx 0.278 \]
- 步骤2:求和并归一化:
\[ \hat{p}(2.0) = \frac{1}{3 \times 0.5} (0.278 + 0.798 + 0.278) \approx 0.904 \]
-
与直方图的对比
- 直方图:密度估计不连续,受分箱位置和宽度影响大。
- KDE:连续平滑,对数据分布假设更弱,但计算成本较高。
-
应用场景
- 数据可视化:生成平滑的密度曲线。
- 异常检测:低密度区域可能对应异常点。
- 生成模型:通过从估计密度中采样生成新数据。