贝叶斯线性回归(Bayesian Linear Regression)的先验设置、后验分布推导与预测分布计算过程
字数 5532 2025-12-19 05:37:58

贝叶斯线性回归(Bayesian Linear Regression)的先验设置、后验分布推导与预测分布计算过程

我将为您详细讲解贝叶斯线性回归这一经典的概率模型。贝叶斯线性回归在点估计的普通线性回归基础上,引入了参数的概率分布,从而能够量化预测的不确定性,并且天然具备防止过拟合的正则化效果。下面我将分步骤讲解其核心原理与计算过程。

一、问题背景与模型设定

普通线性回归假设观测数据由线性模型生成,并带有高斯噪声:

\[y = \mathbf{w}^\top \mathbf{x} + \epsilon, \quad \epsilon \sim \mathcal{N}(0, \sigma^2) \]

其中,\(\mathbf{w}\) 是权重向量,\(\sigma^2\) 是噪声方差。我们通过最小二乘法或最大似然估计来求解 \(\mathbf{w}\)

贝叶斯线性回归则将 \(\mathbf{w}\) 视为随机变量,为其指定一个先验分布,然后利用贝叶斯定理结合观测数据来更新参数的分布,得到后验分布。这样做不仅得到参数的分布,还能给出预测值的分布。


二、贝叶斯线性回归的数学模型

假设我们有 \(N\) 个数据点,每个数据点由特征向量 \(\mathbf{x}_n \in \mathbb{R}^D\) 和标量观测值 \(y_n\) 组成。将特征矩阵记为 \(\mathbf{X} \in \mathbb{R}^{N \times D}\),观测向量记为 \(\mathbf{y} \in \mathbb{R}^N\)

1. 似然函数(Likelihood)

给定权重 \(\mathbf{w}\) 和噪声方差 \(\sigma^2\),观测值服从独立高斯分布:

\[p(\mathbf{y} \mid \mathbf{X}, \mathbf{w}, \sigma^2) = \prod_{n=1}^N \mathcal{N}(y_n \mid \mathbf{w}^\top \mathbf{x}_n, \sigma^2) = \mathcal{N}(\mathbf{y} \mid \mathbf{X} \mathbf{w}, \sigma^2 \mathbf{I}_N) \]

其中,\(\mathbf{I}_N\)\(N \times N\) 的单位矩阵。

2. 权重先验分布(Prior Distribution)

我们为权重 \(\mathbf{w}\) 设置一个高斯先验(也称为共轭先验):

\[p(\mathbf{w}) = \mathcal{N}(\mathbf{w} \mid \mathbf{m}_0, \mathbf{S}_0) \]

\(\mathbf{m}_0\) 是先验均值(通常设为零向量 \(\mathbf{0}\)),\(\mathbf{S}_0\) 是先验协方差矩阵(通常取为标量乘单位矩阵 \(\alpha^{-1} \mathbf{I}\),即各权重独立同分布)。

3. 噪声方差的处理

在实际中,噪声方差 \(\sigma^2\) 可以是已知的(简化情形),也可以是未知的。当 \(\sigma^2\) 未知时,我们还需为它设置一个先验(如逆伽马分布)。为简化推导,我们先假设 \(\sigma^2\) 已知,这是贝叶斯线性回归最基本的形式。


三、权重后验分布的推导

根据贝叶斯定理,权重的后验分布正比于似然乘以先验:

\[p(\mathbf{w} \mid \mathbf{X}, \mathbf{y}, \sigma^2) \propto p(\mathbf{y} \mid \mathbf{X}, \mathbf{w}, \sigma^2) \, p(\mathbf{w}) \]

由于似然和先验都是高斯分布,它们的乘积仍是高斯分布(高斯分布的自共轭性质)。我们可以通过配方法(completing the square)来直接得到后验分布的均值和协方差。

推导步骤:

  1. 写出指数部分的求和(忽略常数项):

\[ \log p(\mathbf{w} \mid \mathbf{X}, \mathbf{y}, \sigma^2) = -\frac{1}{2\sigma^2} (\mathbf{y} - \mathbf{X}\mathbf{w})^\top (\mathbf{y} - \mathbf{X}\mathbf{w}) - \frac{1}{2} (\mathbf{w} - \mathbf{m}_0)^\top \mathbf{S}_0^{-1} (\mathbf{w} - \mathbf{m}_0) + \text{const.} \]

  1. 展开并合并关于 \(\mathbf{w}\) 的二次项和一次项

    • 二次项:\(-\frac{1}{2} \mathbf{w}^\top \left( \frac{1}{\sigma^2} \mathbf{X}^\top \mathbf{X} + \mathbf{S}_0^{-1} \right) \mathbf{w}\)
    • 一次项:\(\mathbf{w}^\top \left( \frac{1}{\sigma^2} \mathbf{X}^\top \mathbf{y} + \mathbf{S}_0^{-1} \mathbf{m}_0 \right)\)
  2. 识别后验高斯分布的参数
    根据高斯分布的一般形式 \(\mathcal{N}(\mathbf{w} \mid \mathbf{m}_N, \mathbf{S}_N)\),其指数部分为:

\[ -\frac{1}{2} (\mathbf{w} - \mathbf{m}_N)^\top \mathbf{S}_N^{-1} (\mathbf{w} - \mathbf{m}_N) = -\frac{1}{2} \mathbf{w}^\top \mathbf{S}_N^{-1} \mathbf{w} + \mathbf{w}^\top \mathbf{S}_N^{-1} \mathbf{m}_N + \text{const.} \]

对比系数可得:

\[ \mathbf{S}_N^{-1} = \frac{1}{\sigma^2} \mathbf{X}^\top \mathbf{X} + \mathbf{S}_0^{-1}, \quad \mathbf{S}_N^{-1} \mathbf{m}_N = \frac{1}{\sigma^2} \mathbf{X}^\top \mathbf{y} + \mathbf{S}_0^{-1} \mathbf{m}_0 \]

因此:

\[ \mathbf{S}_N = \left( \frac{1}{\sigma^2} \mathbf{X}^\top \mathbf{X} + \mathbf{S}_0^{-1} \right)^{-1}, \quad \mathbf{m}_N = \mathbf{S}_N \left( \frac{1}{\sigma^2} \mathbf{X}^\top \mathbf{y} + \mathbf{S}_0^{-1} \mathbf{m}_0 \right) \]

后验分布

\[p(\mathbf{w} \mid \mathbf{X}, \mathbf{y}, \sigma^2) = \mathcal{N}(\mathbf{w} \mid \mathbf{m}_N, \mathbf{S}_N) \]


四、预测分布的计算

贝叶斯线性回归的核心优势是能够对新输入 \(\mathbf{x}_*\) 对应的输出 \(y_*\) 给出一个完整的概率分布(预测分布),而不仅仅是点估计。

预测分布通过对所有可能的权重值进行积分(贝叶斯模型平均)得到:

\[p(y_* \mid \mathbf{x}_*, \mathbf{X}, \mathbf{y}, \sigma^2) = \int p(y_* \mid \mathbf{x}_*, \mathbf{w}, \sigma^2) \, p(\mathbf{w} \mid \mathbf{X}, \mathbf{y}, \sigma^2) \, d\mathbf{w} \]

因为 \(y_* = \mathbf{w}^\top \mathbf{x}_* + \epsilon\)\(\epsilon \sim \mathcal{N}(0, \sigma^2)\),所以给定 \(\mathbf{w}\)\(y_*\) 服从高斯分布 \(\mathcal{N}(\mathbf{w}^\top \mathbf{x}_*, \sigma^2)\)。而 \(\mathbf{w}\) 的后验也是高斯分布,两个高斯分布的卷积结果仍是高斯分布。

推导预测分布的均值和方差

  • 均值\(\mathbb{E}[y_*] = \mathbb{E}[\mathbf{w}^\top \mathbf{x}_*] = \mathbf{m}_N^\top \mathbf{x}_*\)
    这恰好是后验均值权重下的预测值,与最大后验估计(MAP)的结果一致。
  • 方差\(\text{Var}[y_*] = \mathbf{x}_*^\top \mathbf{S}_N \mathbf{x}_* + \sigma^2\)
    其中,第一项 \(\mathbf{x}_*^\top \mathbf{S}_N \mathbf{x}_*\) 反映了参数不确定性(由于权重不是确定值),第二项 \(\sigma^2\)数据固有噪声

因此,预测分布为:

\[p(y_* \mid \mathbf{x}_*, \mathbf{X}, \mathbf{y}, \sigma^2) = \mathcal{N}(y_* \mid \mathbf{m}_N^\top \mathbf{x}_*, \, \mathbf{x}_*^\top \mathbf{S}_N \mathbf{x}_* + \sigma^2) \]


五、噪声方差未知时的扩展(共轭先验)

当噪声方差 \(\sigma^2\) 未知时,我们为 \(\mathbf{w}\)\(\sigma^2\) 设置高斯-逆伽马共轭先验(或等价地为精度 \(\lambda = 1/\sigma^2\) 设置伽马先验):

\[p(\mathbf{w}, \sigma^2) = p(\mathbf{w} \mid \sigma^2) \, p(\sigma^2) = \mathcal{N}(\mathbf{w} \mid \mathbf{m}_0, \sigma^2 \mathbf{V}_0) \cdot \text{Inv-Gamma}(\sigma^2 \mid a_0, b_0) \]

此时,后验分布 \(p(\mathbf{w}, \sigma^2 \mid \mathbf{X}, \mathbf{y})\) 也是高斯-逆伽马分布,且预测分布 \(p(y_* \mid \mathbf{x}_*, \mathbf{X}, \mathbf{y})\)t分布(Student’s t-distribution),其自由度随样本数增加而增加,逐渐接近高斯分布。t分布比高斯分布具有更厚的尾部,反映了在方差未知时预测的不确定性更大。


六、与正则化的联系

在先验协方差取 \(\mathbf{S}_0 = \alpha^{-1} \mathbf{I}\)(即权重独立同分布先验)且先验均值 \(\mathbf{m}_0 = \mathbf{0}\) 时,权重的最大后验估计(MAP)等价于最小化如下目标函数:

\[J(\mathbf{w}) = \frac{1}{2\sigma^2} \sum_{n=1}^N (y_n - \mathbf{w}^\top \mathbf{x}_n)^2 + \frac{\alpha}{2} \|\mathbf{w}\|_2^2 \]

这正是岭回归(L2正则化线性回归)的目标函数。因此,贝叶斯线性回归提供了一种自然的正则化解释:先验分布等价于对权重施加了约束。


七、总结与关键点

  1. 贝叶斯线性回归将线性回归中的权重视为随机变量,通过先验与似然的结合得到后验分布。
  2. 先验选择:通常使用高斯先验,与高斯似然共轭,使得后验也为高斯分布,便于解析计算。
  3. 后验分布推导:通过配方法直接得到后验的均值 \(\mathbf{m}_N\) 和协方差 \(\mathbf{S}_N\)
  4. 预测分布:对新样本的预测是一个高斯分布,其均值是后验权重均值的预测,方差包含参数不确定性和数据噪声。
  5. 与正则化的关系:高斯先验对应L2正则化,最大后验估计等价于岭回归。
  6. 扩展:当噪声方差未知时,预测分布变为t分布,更能反映不确定性。

贝叶斯线性回归是理解贝叶斯方法在回归问题中的经典范例,其思想可推广到更复杂的模型(如高斯过程回归),并为模型选择、超参数优化等提供了概率框架。

贝叶斯线性回归(Bayesian Linear Regression)的先验设置、后验分布推导与预测分布计算过程 我将为您详细讲解 贝叶斯线性回归 这一经典的概率模型。贝叶斯线性回归在点估计的普通线性回归基础上,引入了参数的概率分布,从而能够量化预测的不确定性,并且天然具备防止过拟合的正则化效果。下面我将分步骤讲解其核心原理与计算过程。 一、问题背景与模型设定 普通线性回归 假设观测数据由线性模型生成,并带有高斯噪声: \[ y = \mathbf{w}^\top \mathbf{x} + \epsilon, \quad \epsilon \sim \mathcal{N}(0, \sigma^2) \] 其中,\(\mathbf{w}\) 是权重向量,\(\sigma^2\) 是噪声方差。我们通过最小二乘法或最大似然估计来求解 \(\mathbf{w}\)。 而 贝叶斯线性回归 则将 \(\mathbf{w}\) 视为随机变量,为其指定一个先验分布,然后利用贝叶斯定理结合观测数据来更新参数的分布,得到后验分布。这样做不仅得到参数的分布,还能给出预测值的分布。 二、贝叶斯线性回归的数学模型 假设我们有 \(N\) 个数据点,每个数据点由特征向量 \(\mathbf{x}_ n \in \mathbb{R}^D\) 和标量观测值 \(y_ n\) 组成。将特征矩阵记为 \(\mathbf{X} \in \mathbb{R}^{N \times D}\),观测向量记为 \(\mathbf{y} \in \mathbb{R}^N\)。 1. 似然函数(Likelihood) 给定权重 \(\mathbf{w}\) 和噪声方差 \(\sigma^2\),观测值服从独立高斯分布: \[ p(\mathbf{y} \mid \mathbf{X}, \mathbf{w}, \sigma^2) = \prod_ {n=1}^N \mathcal{N}(y_ n \mid \mathbf{w}^\top \mathbf{x}_ n, \sigma^2) = \mathcal{N}(\mathbf{y} \mid \mathbf{X} \mathbf{w}, \sigma^2 \mathbf{I}_ N) \] 其中,\(\mathbf{I}_ N\) 是 \(N \times N\) 的单位矩阵。 2. 权重先验分布(Prior Distribution) 我们为权重 \(\mathbf{w}\) 设置一个高斯先验(也称为 共轭先验 ): \[ p(\mathbf{w}) = \mathcal{N}(\mathbf{w} \mid \mathbf{m}_ 0, \mathbf{S}_ 0) \] \(\mathbf{m}_ 0\) 是先验均值(通常设为零向量 \(\mathbf{0}\)),\(\mathbf{S}_ 0\) 是先验协方差矩阵(通常取为标量乘单位矩阵 \(\alpha^{-1} \mathbf{I}\),即各权重独立同分布)。 3. 噪声方差的处理 在实际中,噪声方差 \(\sigma^2\) 可以是已知的(简化情形),也可以是未知的。当 \(\sigma^2\) 未知时,我们还需为它设置一个先验(如逆伽马分布)。为简化推导,我们先假设 \(\sigma^2\) 已知 ,这是贝叶斯线性回归最基本的形式。 三、权重后验分布的推导 根据贝叶斯定理,权重的后验分布正比于似然乘以先验: \[ p(\mathbf{w} \mid \mathbf{X}, \mathbf{y}, \sigma^2) \propto p(\mathbf{y} \mid \mathbf{X}, \mathbf{w}, \sigma^2) \, p(\mathbf{w}) \] 由于似然和先验都是高斯分布,它们的乘积仍是高斯分布(高斯分布的自共轭性质)。我们可以通过 配方法 (completing the square)来直接得到后验分布的均值和协方差。 推导步骤: 写出指数部分的求和 (忽略常数项): \[ \log p(\mathbf{w} \mid \mathbf{X}, \mathbf{y}, \sigma^2) = -\frac{1}{2\sigma^2} (\mathbf{y} - \mathbf{X}\mathbf{w})^\top (\mathbf{y} - \mathbf{X}\mathbf{w}) - \frac{1}{2} (\mathbf{w} - \mathbf{m}_ 0)^\top \mathbf{S}_ 0^{-1} (\mathbf{w} - \mathbf{m}_ 0) + \text{const.} \] 展开并合并关于 \(\mathbf{w}\) 的二次项和一次项 : 二次项:\(-\frac{1}{2} \mathbf{w}^\top \left( \frac{1}{\sigma^2} \mathbf{X}^\top \mathbf{X} + \mathbf{S}_ 0^{-1} \right) \mathbf{w}\) 一次项:\(\mathbf{w}^\top \left( \frac{1}{\sigma^2} \mathbf{X}^\top \mathbf{y} + \mathbf{S}_ 0^{-1} \mathbf{m}_ 0 \right)\) 识别后验高斯分布的参数 : 根据高斯分布的一般形式 \(\mathcal{N}(\mathbf{w} \mid \mathbf{m}_ N, \mathbf{S}_ N)\),其指数部分为: \[ -\frac{1}{2} (\mathbf{w} - \mathbf{m}_ N)^\top \mathbf{S}_ N^{-1} (\mathbf{w} - \mathbf{m}_ N) = -\frac{1}{2} \mathbf{w}^\top \mathbf{S}_ N^{-1} \mathbf{w} + \mathbf{w}^\top \mathbf{S}_ N^{-1} \mathbf{m}_ N + \text{const.} \] 对比系数可得: \[ \mathbf{S}_ N^{-1} = \frac{1}{\sigma^2} \mathbf{X}^\top \mathbf{X} + \mathbf{S}_ 0^{-1}, \quad \mathbf{S}_ N^{-1} \mathbf{m}_ N = \frac{1}{\sigma^2} \mathbf{X}^\top \mathbf{y} + \mathbf{S}_ 0^{-1} \mathbf{m}_ 0 \] 因此: \[ \mathbf{S}_ N = \left( \frac{1}{\sigma^2} \mathbf{X}^\top \mathbf{X} + \mathbf{S}_ 0^{-1} \right)^{-1}, \quad \mathbf{m}_ N = \mathbf{S}_ N \left( \frac{1}{\sigma^2} \mathbf{X}^\top \mathbf{y} + \mathbf{S}_ 0^{-1} \mathbf{m}_ 0 \right) \] 后验分布 : \[ p(\mathbf{w} \mid \mathbf{X}, \mathbf{y}, \sigma^2) = \mathcal{N}(\mathbf{w} \mid \mathbf{m}_ N, \mathbf{S}_ N) \] 四、预测分布的计算 贝叶斯线性回归的核心优势是能够对 新输入 \(\mathbf{x} * \) 对应的输出 \(y * \) 给出一个完整的概率分布(预测分布),而不仅仅是点估计。 预测分布通过对所有可能的权重值进行积分( 贝叶斯模型平均 )得到: \[ p(y_* \mid \mathbf{x} * , \mathbf{X}, \mathbf{y}, \sigma^2) = \int p(y * \mid \mathbf{x} * , \mathbf{w}, \sigma^2) \, p(\mathbf{w} \mid \mathbf{X}, \mathbf{y}, \sigma^2) \, d\mathbf{w} \] 因为 \(y * = \mathbf{w}^\top \mathbf{x} * + \epsilon\) 且 \(\epsilon \sim \mathcal{N}(0, \sigma^2)\),所以给定 \(\mathbf{w}\) 时 \(y \) 服从高斯分布 \(\mathcal{N}(\mathbf{w}^\top \mathbf{x}_ , \sigma^2)\)。而 \(\mathbf{w}\) 的后验也是高斯分布,两个高斯分布的卷积结果仍是高斯分布。 推导预测分布的均值和方差 : 均值 :\(\mathbb{E}[ y_ ] = \mathbb{E}[ \mathbf{w}^\top \mathbf{x}_ ] = \mathbf{m} N^\top \mathbf{x} * \) 这恰好是后验均值权重下的预测值,与最大后验估计(MAP)的结果一致。 方差 :\(\text{Var}[ y_ ] = \mathbf{x}_ ^\top \mathbf{S} N \mathbf{x} * + \sigma^2\) 其中,第一项 \(\mathbf{x}_ ^\top \mathbf{S} N \mathbf{x} \) 反映了 参数不确定性 (由于权重不是确定值),第二项 \(\sigma^2\) 是 数据固有噪声 。 因此, 预测分布 为: \[ p(y_* \mid \mathbf{x} * , \mathbf{X}, \mathbf{y}, \sigma^2) = \mathcal{N}(y * \mid \mathbf{m} N^\top \mathbf{x} , \, \mathbf{x}_ ^\top \mathbf{S} N \mathbf{x} * + \sigma^2) \] 五、噪声方差未知时的扩展(共轭先验) 当噪声方差 \(\sigma^2\) 未知时,我们为 \(\mathbf{w}\) 和 \(\sigma^2\) 设置 高斯-逆伽马共轭先验 (或等价地为精度 \(\lambda = 1/\sigma^2\) 设置伽马先验): \[ p(\mathbf{w}, \sigma^2) = p(\mathbf{w} \mid \sigma^2) \, p(\sigma^2) = \mathcal{N}(\mathbf{w} \mid \mathbf{m} 0, \sigma^2 \mathbf{V} 0) \cdot \text{Inv-Gamma}(\sigma^2 \mid a_ 0, b_ 0) \] 此时,后验分布 \(p(\mathbf{w}, \sigma^2 \mid \mathbf{X}, \mathbf{y})\) 也是高斯-逆伽马分布,且预测分布 \(p(y * \mid \mathbf{x} * , \mathbf{X}, \mathbf{y})\) 为 t分布 (Student’s t-distribution),其自由度随样本数增加而增加,逐渐接近高斯分布。t分布比高斯分布具有更厚的尾部,反映了在方差未知时预测的不确定性更大。 六、与正则化的联系 在先验协方差取 \(\mathbf{S}_ 0 = \alpha^{-1} \mathbf{I}\)(即权重独立同分布先验)且先验均值 \(\mathbf{m} 0 = \mathbf{0}\) 时,权重的 最大后验估计 (MAP)等价于最小化如下目标函数: \[ J(\mathbf{w}) = \frac{1}{2\sigma^2} \sum {n=1}^N (y_ n - \mathbf{w}^\top \mathbf{x}_ n)^2 + \frac{\alpha}{2} \|\mathbf{w}\|_ 2^2 \] 这正是 岭回归 (L2正则化线性回归)的目标函数。因此,贝叶斯线性回归提供了一种自然的正则化解释:先验分布等价于对权重施加了约束。 七、总结与关键点 贝叶斯线性回归 将线性回归中的权重视为随机变量,通过先验与似然的结合得到后验分布。 先验选择 :通常使用高斯先验,与高斯似然共轭,使得后验也为高斯分布,便于解析计算。 后验分布推导 :通过配方法直接得到后验的均值 \(\mathbf{m}_ N\) 和协方差 \(\mathbf{S}_ N\)。 预测分布 :对新样本的预测是一个高斯分布,其均值是后验权重均值的预测,方差包含参数不确定性和数据噪声。 与正则化的关系 :高斯先验对应L2正则化,最大后验估计等价于岭回归。 扩展 :当噪声方差未知时,预测分布变为t分布,更能反映不确定性。 贝叶斯线性回归是理解贝叶斯方法在回归问题中的经典范例,其思想可推广到更复杂的模型(如高斯过程回归),并为模型选择、超参数优化等提供了概率框架。