泊松回归(Poisson Regression)的原理与极大似然估计过程
题目描述
泊松回归是一种用于建模计数型响应变量(即取值为非负整数,如事件发生次数)的广义线性模型(GLM)。其假设响应变量 \(y\) 服从泊松分布,并通过对数连接函数将解释变量 \(x\) 的线性组合与 \(y\) 的期望值联系起来。本题将详细讲解泊松回归的模型设定、参数估计的极大似然方法,以及迭代重加权最小二乘(IRLS)算法的求解步骤。
解题过程
第一步:泊松回归模型的基本设定
- 响应变量分布:
给定输入特征向量 \(\mathbf{x} \in \mathbb{R}^d\) 和参数 \(\boldsymbol{\beta} \in \mathbb{R}^d\),响应变量 \(y\) 服从泊松分布:
\[ y \mid \mathbf{x} \sim \text{Poisson}(\lambda), \quad \lambda = \mathbb{E}[y \mid \mathbf{x}] > 0. \]
泊松分布的概率质量函数为:
\[ P(y = k \mid \lambda) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \dots \]
- 连接函数:
为了确保 \(\lambda > 0\),使用对数连接函数将 \(\lambda\) 与线性预测器 \(\eta = \mathbf{x}^\top \boldsymbol{\beta}\) 关联起来:
\[ \log(\lambda) = \eta = \mathbf{x}^\top \boldsymbol{\beta} \quad \Rightarrow \quad \lambda = e^{\mathbf{x}^\top \boldsymbol{\beta}}. \]
这意味着事件发生率的对数是特征的线性组合。
- 模型形式:
对于 \(n\) 个独立观测样本 \(\{(\mathbf{x}_i, y_i)\}_{i=1}^n\),模型可写为:
\[ \lambda_i = \exp(\mathbf{x}_i^\top \boldsymbol{\beta}), \quad y_i \sim \text{Poisson}(\lambda_i). \]
第二步:构建极大似然估计问题
- 似然函数:
样本的联合似然函数为:
\[ L(\boldsymbol{\beta}) = \prod_{i=1}^n \frac{\lambda_i^{y_i} e^{-\lambda_i}}{y_i!}, \quad \lambda_i = \exp(\mathbf{x}_i^\top \boldsymbol{\beta}). \]
- 对数似然函数:
取对数并忽略常数项 \(-\log(y_i!)\):
\[ \ell(\boldsymbol{\beta}) = \sum_{i=1}^n \left[ y_i \mathbf{x}_i^\top \boldsymbol{\beta} - \exp(\mathbf{x}_i^\top \boldsymbol{\beta}) \right]. \]
目标是找到 \(\boldsymbol{\beta}\) 最大化 \(\ell(\boldsymbol{\beta})\)。
第三步:推导梯度与海森矩阵
- 梯度(一阶导数):
对 \(\beta_j\) 求偏导:
\[ \frac{\partial \ell}{\partial \beta_j} = \sum_{i=1}^n \left[ y_i x_{ij} - \exp(\mathbf{x}_i^\top \boldsymbol{\beta}) x_{ij} \right] = \sum_{i=1}^n (y_i - \lambda_i) x_{ij}. \]
写成向量形式:
\[ \nabla \ell(\boldsymbol{\beta}) = \sum_{i=1}^n (y_i - \lambda_i) \mathbf{x}_i = \mathbf{X}^\top (\mathbf{y} - \boldsymbol{\lambda}), \]
其中 \(\mathbf{X} \in \mathbb{R}^{n \times d}\) 是设计矩阵,\(\boldsymbol{\lambda} = [\lambda_1, \dots, \lambda_n]^\top\)。
- 海森矩阵(二阶导数):
对 \(\beta_j\) 和 \(\beta_k\) 求二阶偏导:
\[ \frac{\partial^2 \ell}{\partial \beta_j \partial \beta_k} = -\sum_{i=1}^n \exp(\mathbf{x}_i^\top \boldsymbol{\beta}) x_{ij} x_{ik} = -\sum_{i=1}^n \lambda_i x_{ij} x_{ik}. \]
写成矩阵形式:
\[ \mathbf{H}(\boldsymbol{\beta}) = -\mathbf{X}^\top \mathbf{W} \mathbf{X}, \]
其中 \(\mathbf{W} = \text{diag}(\lambda_1, \dots, \lambda_n)\) 是对角权重矩阵。
注意:海森矩阵负定(因 \(\mathbf{W} > 0\)),故对数似然是凹函数,存在唯一极大值点。
第四步:用牛顿-拉弗森法求解极大似然估计
牛顿法迭代公式:
\[\boldsymbol{\beta}^{(t+1)} = \boldsymbol{\beta}^{(t)} - [\mathbf{H}(\boldsymbol{\beta}^{(t)})]^{-1} \nabla \ell(\boldsymbol{\beta}^{(t)}). \]
代入梯度与海森矩阵表达式:
\[\boldsymbol{\beta}^{(t+1)} = \boldsymbol{\beta}^{(t)} + (\mathbf{X}^\top \mathbf{W}^{(t)} \mathbf{X})^{-1} \mathbf{X}^\top (\mathbf{y} - \boldsymbol{\lambda}^{(t)}), \]
其中 \(\mathbf{W}^{(t)} = \text{diag}(\lambda_1^{(t)}, \dots, \lambda_n^{(t)})\),\(\lambda_i^{(t)} = \exp(\mathbf{x}_i^\top \boldsymbol{\beta}^{(t)})\)。
第五步:转化为迭代重加权最小二乘(IRLS)
-
定义“工作响应变量”:
令 \(z_i^{(t)} = \mathbf{x}_i^\top \boldsymbol{\beta}^{(t)} + \frac{y_i - \lambda_i^{(t)}}{\lambda_i^{(t)}}\),其本质是对数连接函数的一阶泰勒展开修正项。 -
迭代步骤:
在第 \(t\) 次迭代中:- 计算当前预测值 \(\lambda_i^{(t)} = \exp(\mathbf{x}_i^\top \boldsymbol{\beta}^{(t)})\)。
- 计算权重 \(w_i^{(t)} = \lambda_i^{(t)}\)(即 \(\mathbf{W}^{(t)}\) 对角线元素)。
- 计算工作响应 \(z_i^{(t)} = \mathbf{x}_i^\top \boldsymbol{\beta}^{(t)} + (y_i - \lambda_i^{(t)}) / \lambda_i^{(t)}\)。
- 求解加权最小二乘问题:
\[ \boldsymbol{\beta}^{(t+1)} = \arg\min_{\boldsymbol{\beta}} \sum_{i=1}^n w_i^{(t)} (z_i^{(t)} - \mathbf{x}_i^\top \boldsymbol{\beta})^2 = (\mathbf{X}^\top \mathbf{W}^{(t)} \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{W}^{(t)} \mathbf{z}^{(t)}. \]
- 重复直至收敛(如 \(\|\boldsymbol{\beta}^{(t+1)} - \boldsymbol{\beta}^{(t)}\| < \epsilon\))。
第六步:解释与诊断
-
参数意义:
系数 \(\beta_j\) 解释为:\(x_j\) 每增加1单位,\(\log(\lambda)\) 增加 \(\beta_j\),即发生率 \(\lambda\) 变为原来的 \(e^{\beta_j}\) 倍(发生率比)。 -
过离散检验:
泊松回归要求方差等于均值(\(\text{Var}(y) = \mathbb{E}[y]\))。若数据出现“过离散”(方差 > 均值),可考虑负二项回归等扩展模型。 -
模型评估:
常用偏差(Deviance)或皮尔逊卡方统计量评估拟合优度,并可通过似然比检验比较嵌套模型。
总结
泊松回归通过对数连接函数将计数数据的期望与线性预测器关联,利用极大似然估计求解参数,并通过IRLS算法高效迭代计算。其核心步骤包括:
- 设定泊松分布与对数连接函数。
- 构建对数似然函数并求梯度、海森矩阵。
- 使用牛顿法或IRLS迭代求解参数。
- 解释参数的意义并检验模型假设。
该模型广泛应用于流行病学、保险精算、生态学等领域的计数数据分析。