高斯过程回归(Gaussian Process Regression)的原理与预测过程
我将详细讲解高斯过程回归(GPR)的原理和预测过程。GPR是一种强大的非参数贝叶斯方法,用于解决回归问题。
题目描述
假设我们有一组带噪声的观测数据点(训练集)D = {(x₁, y₁), (x₂, y₂), ..., (xₙ, yₙ)},其中xᵢ是输入向量,yᵢ是观测输出。我们的目标是:给定新的测试输入x*,预测对应的输出f(x*)的分布(而不仅仅是点估计)。
解题过程
1. 高斯过程的基本概念
高斯过程是随机变量的集合,其中任意有限个随机变量都服从联合高斯分布。它完全由以下两个函数定义:
- 均值函数m(x):通常设为0(数据可先中心化)
- 协方差函数(核函数)k(x, x'):衡量两个输入点之间的相似度
我们写作:f(x) ∼ GP(m(x), k(x, x'))
2. 先验分布
在观察到任何数据之前,我们对函数f(x)有一个先验信念。假设均值为0,则先验分布为:
p(f) = N(0, K)
其中K是核函数在所有训练点对上计算的协方差矩阵,Kᵢⱼ = k(xᵢ, xⱼ)
3. 似然函数
我们假设观测值y与真实函数值f(x)的关系为:
y = f(x) + ε,其中ε ∼ N(0, σ²ₙ)是高斯噪声
因此,似然函数为:p(y|f) = N(f, σ²ₙI)
4. 训练集与测试集的联合分布
考虑训练点X和测试点X*,对应的函数值f和f服从联合高斯分布:
[ y ] ∼ N( 0, [ K(X,X) + σ²ₙI K(X,X) ] )
[ f* ] [ K(X*,X) K(X*,X*) ]
其中K(X,X)是n×n矩阵,K(X,X*)是n×n*矩阵,等等。
5. 后验预测分布
利用高斯分布的条件分布性质,我们可以得到f的后验分布:
p(f|X,y,X*) = N(μ*, Σ*)
其中:
- 预测均值:μ* = K(X*,X)[K(X,X) + σ²ₙI]⁻¹y
- 预测协方差:Σ* = K(X*,X*) - K(X*,X)[K(X,X) + σ²ₙI]⁻¹K(X,X*)
6. 核函数的选择
常用的核函数包括:
- 平方指数核:k(x,x') = σ² exp(-||x-x'||²/(2l²))
- 马顿核:k(x,x') = σ²(1 + √3||x-x'||/l) exp(-√3||x-x'||/l)
参数σ²(信号方差)和l(长度尺度)通过最大化边缘似然来优化。
7. 预测不确定性
GPR的一个重要优势是它提供了预测的不确定性估计。对于测试点x*,预测分布f(x*) ∼ N(μ(x*), σ²(x*)),其中方差σ²(x*)量化了预测的不确定性。