泊松回归(Poisson Regression)的原理与极大似然估计过程
字数 4264 2025-12-12 04:45:24

泊松回归(Poisson Regression)的原理与极大似然估计过程


题目描述

泊松回归是一种用于建模计数型响应变量(即取值为非负整数,如事件发生次数)的广义线性模型(GLM)。其假设响应变量 \(y\) 服从泊松分布,并通过对数连接函数将解释变量 \(x\) 的线性组合与 \(y\) 的期望值联系起来。本题将详细讲解泊松回归的模型设定、参数估计的极大似然方法,以及迭代重加权最小二乘(IRLS)算法的求解步骤。


解题过程

第一步:泊松回归模型的基本设定

  1. 响应变量分布
    给定输入特征向量 \(\mathbf{x} \in \mathbb{R}^d\) 和参数 \(\boldsymbol{\beta} \in \mathbb{R}^d\),响应变量 \(y\) 服从泊松分布:

\[ y \mid \mathbf{x} \sim \text{Poisson}(\lambda), \quad \lambda = \mathbb{E}[y \mid \mathbf{x}] > 0. \]

泊松分布的概率质量函数为:

\[ P(y = k \mid \lambda) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \dots \]

  1. 连接函数
    为了确保 \(\lambda > 0\),使用对数连接函数\(\lambda\) 与线性预测器 \(\eta = \mathbf{x}^\top \boldsymbol{\beta}\) 关联起来:

\[ \log(\lambda) = \eta = \mathbf{x}^\top \boldsymbol{\beta} \quad \Rightarrow \quad \lambda = e^{\mathbf{x}^\top \boldsymbol{\beta}}. \]

这意味着事件发生率的对数是特征的线性组合。

  1. 模型形式
    对于 \(n\) 个独立观测样本 \(\{(\mathbf{x}_i, y_i)\}_{i=1}^n\),模型可写为:

\[ \lambda_i = \exp(\mathbf{x}_i^\top \boldsymbol{\beta}), \quad y_i \sim \text{Poisson}(\lambda_i). \]


第二步:构建极大似然估计问题

  1. 似然函数
    样本的联合似然函数为:

\[ L(\boldsymbol{\beta}) = \prod_{i=1}^n \frac{\lambda_i^{y_i} e^{-\lambda_i}}{y_i!}, \quad \lambda_i = \exp(\mathbf{x}_i^\top \boldsymbol{\beta}). \]

  1. 对数似然函数
    取对数并忽略常数项 \(-\log(y_i!)\)

\[ \ell(\boldsymbol{\beta}) = \sum_{i=1}^n \left[ y_i \mathbf{x}_i^\top \boldsymbol{\beta} - \exp(\mathbf{x}_i^\top \boldsymbol{\beta}) \right]. \]

目标是找到 \(\boldsymbol{\beta}\) 最大化 \(\ell(\boldsymbol{\beta})\)


第三步:推导梯度与海森矩阵

  1. 梯度(一阶导数)
    \(\beta_j\) 求偏导:

\[ \frac{\partial \ell}{\partial \beta_j} = \sum_{i=1}^n \left[ y_i x_{ij} - \exp(\mathbf{x}_i^\top \boldsymbol{\beta}) x_{ij} \right] = \sum_{i=1}^n (y_i - \lambda_i) x_{ij}. \]

写成向量形式:

\[ \nabla \ell(\boldsymbol{\beta}) = \sum_{i=1}^n (y_i - \lambda_i) \mathbf{x}_i = \mathbf{X}^\top (\mathbf{y} - \boldsymbol{\lambda}), \]

其中 \(\mathbf{X} \in \mathbb{R}^{n \times d}\) 是设计矩阵,\(\boldsymbol{\lambda} = [\lambda_1, \dots, \lambda_n]^\top\)

  1. 海森矩阵(二阶导数)
    \(\beta_j\)\(\beta_k\) 求二阶偏导:

\[ \frac{\partial^2 \ell}{\partial \beta_j \partial \beta_k} = -\sum_{i=1}^n \exp(\mathbf{x}_i^\top \boldsymbol{\beta}) x_{ij} x_{ik} = -\sum_{i=1}^n \lambda_i x_{ij} x_{ik}. \]

写成矩阵形式:

\[ \mathbf{H}(\boldsymbol{\beta}) = -\mathbf{X}^\top \mathbf{W} \mathbf{X}, \]

其中 \(\mathbf{W} = \text{diag}(\lambda_1, \dots, \lambda_n)\) 是对角权重矩阵。
注意:海森矩阵负定(因 \(\mathbf{W} > 0\)),故对数似然是凹函数,存在唯一极大值点。


第四步:用牛顿-拉弗森法求解极大似然估计

牛顿法迭代公式:

\[\boldsymbol{\beta}^{(t+1)} = \boldsymbol{\beta}^{(t)} - [\mathbf{H}(\boldsymbol{\beta}^{(t)})]^{-1} \nabla \ell(\boldsymbol{\beta}^{(t)}). \]

代入梯度与海森矩阵表达式:

\[\boldsymbol{\beta}^{(t+1)} = \boldsymbol{\beta}^{(t)} + (\mathbf{X}^\top \mathbf{W}^{(t)} \mathbf{X})^{-1} \mathbf{X}^\top (\mathbf{y} - \boldsymbol{\lambda}^{(t)}), \]

其中 \(\mathbf{W}^{(t)} = \text{diag}(\lambda_1^{(t)}, \dots, \lambda_n^{(t)})\)\(\lambda_i^{(t)} = \exp(\mathbf{x}_i^\top \boldsymbol{\beta}^{(t)})\)


第五步:转化为迭代重加权最小二乘(IRLS)

  1. 定义“工作响应变量”
    \(z_i^{(t)} = \mathbf{x}_i^\top \boldsymbol{\beta}^{(t)} + \frac{y_i - \lambda_i^{(t)}}{\lambda_i^{(t)}}\),其本质是对数连接函数的一阶泰勒展开修正项。

  2. 迭代步骤
    在第 \(t\) 次迭代中:

    • 计算当前预测值 \(\lambda_i^{(t)} = \exp(\mathbf{x}_i^\top \boldsymbol{\beta}^{(t)})\)
    • 计算权重 \(w_i^{(t)} = \lambda_i^{(t)}\)(即 \(\mathbf{W}^{(t)}\) 对角线元素)。
    • 计算工作响应 \(z_i^{(t)} = \mathbf{x}_i^\top \boldsymbol{\beta}^{(t)} + (y_i - \lambda_i^{(t)}) / \lambda_i^{(t)}\)
    • 求解加权最小二乘问题:

\[ \boldsymbol{\beta}^{(t+1)} = \arg\min_{\boldsymbol{\beta}} \sum_{i=1}^n w_i^{(t)} (z_i^{(t)} - \mathbf{x}_i^\top \boldsymbol{\beta})^2 = (\mathbf{X}^\top \mathbf{W}^{(t)} \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{W}^{(t)} \mathbf{z}^{(t)}. \]

  • 重复直至收敛(如 \(\|\boldsymbol{\beta}^{(t+1)} - \boldsymbol{\beta}^{(t)}\| < \epsilon\))。

第六步:解释与诊断

  1. 参数意义
    系数 \(\beta_j\) 解释为:\(x_j\) 每增加1单位,\(\log(\lambda)\) 增加 \(\beta_j\),即发生率 \(\lambda\) 变为原来的 \(e^{\beta_j}\) 倍(发生率比)。

  2. 过离散检验
    泊松回归要求方差等于均值(\(\text{Var}(y) = \mathbb{E}[y]\))。若数据出现“过离散”(方差 > 均值),可考虑负二项回归等扩展模型。

  3. 模型评估
    常用偏差(Deviance)或皮尔逊卡方统计量评估拟合优度,并可通过似然比检验比较嵌套模型。


总结

泊松回归通过对数连接函数将计数数据的期望与线性预测器关联,利用极大似然估计求解参数,并通过IRLS算法高效迭代计算。其核心步骤包括:

  1. 设定泊松分布与对数连接函数。
  2. 构建对数似然函数并求梯度、海森矩阵。
  3. 使用牛顿法或IRLS迭代求解参数。
  4. 解释参数的意义并检验模型假设。

该模型广泛应用于流行病学、保险精算、生态学等领域的计数数据分析。

泊松回归(Poisson Regression)的原理与极大似然估计过程 题目描述 泊松回归是一种用于建模 计数型响应变量 (即取值为非负整数,如事件发生次数)的广义线性模型(GLM)。其假设响应变量 \( y \) 服从泊松分布,并通过对数连接函数将解释变量 \( x \) 的线性组合与 \( y \) 的期望值联系起来。本题将详细讲解泊松回归的模型设定、参数估计的极大似然方法,以及迭代重加权最小二乘(IRLS)算法的求解步骤。 解题过程 第一步:泊松回归模型的基本设定 响应变量分布 : 给定输入特征向量 \( \mathbf{x} \in \mathbb{R}^d \) 和参数 \( \boldsymbol{\beta} \in \mathbb{R}^d \),响应变量 \( y \) 服从泊松分布: \[ y \mid \mathbf{x} \sim \text{Poisson}(\lambda), \quad \lambda = \mathbb{E}[ y \mid \mathbf{x} ] > 0. \] 泊松分布的概率质量函数为: \[ P(y = k \mid \lambda) = \frac{\lambda^k e^{-\lambda}}{k !}, \quad k = 0, 1, 2, \dots \] 连接函数 : 为了确保 \( \lambda > 0 \),使用 对数连接函数 将 \( \lambda \) 与线性预测器 \( \eta = \mathbf{x}^\top \boldsymbol{\beta} \) 关联起来: \[ \log(\lambda) = \eta = \mathbf{x}^\top \boldsymbol{\beta} \quad \Rightarrow \quad \lambda = e^{\mathbf{x}^\top \boldsymbol{\beta}}. \] 这意味着事件发生率的对数是特征的线性组合。 模型形式 : 对于 \( n \) 个独立观测样本 \( \{(\mathbf{x} i, y_ i)\} {i=1}^n \),模型可写为: \[ \lambda_ i = \exp(\mathbf{x}_ i^\top \boldsymbol{\beta}), \quad y_ i \sim \text{Poisson}(\lambda_ i). \] 第二步:构建极大似然估计问题 似然函数 : 样本的联合似然函数为: \[ L(\boldsymbol{\beta}) = \prod_ {i=1}^n \frac{\lambda_ i^{y_ i} e^{-\lambda_ i}}{y_ i!}, \quad \lambda_ i = \exp(\mathbf{x}_ i^\top \boldsymbol{\beta}). \] 对数似然函数 : 取对数并忽略常数项 \( -\log(y_ i !) \): \[ \ell(\boldsymbol{\beta}) = \sum_ {i=1}^n \left[ y_ i \mathbf{x}_ i^\top \boldsymbol{\beta} - \exp(\mathbf{x}_ i^\top \boldsymbol{\beta}) \right ]. \] 目标是找到 \( \boldsymbol{\beta} \) 最大化 \( \ell(\boldsymbol{\beta}) \)。 第三步:推导梯度与海森矩阵 梯度(一阶导数) : 对 \( \beta_ j \) 求偏导: \[ \frac{\partial \ell}{\partial \beta_ j} = \sum_ {i=1}^n \left[ y_ i x_ {ij} - \exp(\mathbf{x} i^\top \boldsymbol{\beta}) x {ij} \right] = \sum_ {i=1}^n (y_ i - \lambda_ i) x_ {ij}. \] 写成向量形式: \[ \nabla \ell(\boldsymbol{\beta}) = \sum_ {i=1}^n (y_ i - \lambda_ i) \mathbf{x}_ i = \mathbf{X}^\top (\mathbf{y} - \boldsymbol{\lambda}), \] 其中 \( \mathbf{X} \in \mathbb{R}^{n \times d} \) 是设计矩阵,\( \boldsymbol{\lambda} = [ \lambda_ 1, \dots, \lambda_ n ]^\top \)。 海森矩阵(二阶导数) : 对 \( \beta_ j \) 和 \( \beta_ k \) 求二阶偏导: \[ \frac{\partial^2 \ell}{\partial \beta_ j \partial \beta_ k} = -\sum_ {i=1}^n \exp(\mathbf{x} i^\top \boldsymbol{\beta}) x {ij} x_ {ik} = -\sum_ {i=1}^n \lambda_ i x_ {ij} x_ {ik}. \] 写成矩阵形式: \[ \mathbf{H}(\boldsymbol{\beta}) = -\mathbf{X}^\top \mathbf{W} \mathbf{X}, \] 其中 \( \mathbf{W} = \text{diag}(\lambda_ 1, \dots, \lambda_ n) \) 是对角权重矩阵。 注意 :海森矩阵负定(因 \( \mathbf{W} > 0 \)),故对数似然是凹函数,存在唯一极大值点。 第四步:用牛顿-拉弗森法求解极大似然估计 牛顿法迭代公式: \[ \boldsymbol{\beta}^{(t+1)} = \boldsymbol{\beta}^{(t)} - [ \mathbf{H}(\boldsymbol{\beta}^{(t)}) ]^{-1} \nabla \ell(\boldsymbol{\beta}^{(t)}). \] 代入梯度与海森矩阵表达式: \[ \boldsymbol{\beta}^{(t+1)} = \boldsymbol{\beta}^{(t)} + (\mathbf{X}^\top \mathbf{W}^{(t)} \mathbf{X})^{-1} \mathbf{X}^\top (\mathbf{y} - \boldsymbol{\lambda}^{(t)}), \] 其中 \( \mathbf{W}^{(t)} = \text{diag}(\lambda_ 1^{(t)}, \dots, \lambda_ n^{(t)}) \),\( \lambda_ i^{(t)} = \exp(\mathbf{x}_ i^\top \boldsymbol{\beta}^{(t)}) \)。 第五步:转化为迭代重加权最小二乘(IRLS) 定义“工作响应变量” : 令 \( z_ i^{(t)} = \mathbf{x}_ i^\top \boldsymbol{\beta}^{(t)} + \frac{y_ i - \lambda_ i^{(t)}}{\lambda_ i^{(t)}} \),其本质是对数连接函数的一阶泰勒展开修正项。 迭代步骤 : 在第 \( t \) 次迭代中: 计算当前预测值 \( \lambda_ i^{(t)} = \exp(\mathbf{x}_ i^\top \boldsymbol{\beta}^{(t)}) \)。 计算权重 \( w_ i^{(t)} = \lambda_ i^{(t)} \)(即 \( \mathbf{W}^{(t)} \) 对角线元素)。 计算工作响应 \( z_ i^{(t)} = \mathbf{x}_ i^\top \boldsymbol{\beta}^{(t)} + (y_ i - \lambda_ i^{(t)}) / \lambda_ i^{(t)} \)。 求解加权最小二乘问题: \[ \boldsymbol{\beta}^{(t+1)} = \arg\min_ {\boldsymbol{\beta}} \sum_ {i=1}^n w_ i^{(t)} (z_ i^{(t)} - \mathbf{x}_ i^\top \boldsymbol{\beta})^2 = (\mathbf{X}^\top \mathbf{W}^{(t)} \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{W}^{(t)} \mathbf{z}^{(t)}. \] 重复直至收敛(如 \( \|\boldsymbol{\beta}^{(t+1)} - \boldsymbol{\beta}^{(t)}\| < \epsilon \))。 第六步:解释与诊断 参数意义 : 系数 \( \beta_ j \) 解释为:\( x_ j \) 每增加1单位,\( \log(\lambda) \) 增加 \( \beta_ j \),即发生率 \( \lambda \) 变为原来的 \( e^{\beta_ j} \) 倍(发生率比)。 过离散检验 : 泊松回归要求方差等于均值(\( \text{Var}(y) = \mathbb{E}[ y ] \))。若数据出现“过离散”(方差 > 均值),可考虑负二项回归等扩展模型。 模型评估 : 常用偏差(Deviance)或皮尔逊卡方统计量评估拟合优度,并可通过似然比检验比较嵌套模型。 总结 泊松回归通过 对数连接函数 将计数数据的期望与线性预测器关联,利用 极大似然估计 求解参数,并通过 IRLS算法 高效迭代计算。其核心步骤包括: 设定泊松分布与对数连接函数。 构建对数似然函数并求梯度、海森矩阵。 使用牛顿法或IRLS迭代求解参数。 解释参数的意义并检验模型假设。 该模型广泛应用于流行病学、保险精算、生态学等领域的计数数据分析。