径向基函数(RBF)网络的原理与训练过程
题目描述
径向基函数网络是一种三层前馈神经网络,常用于函数逼近、分类和非线性回归任务。其核心思想是:通过径向基函数(如高斯函数)将输入数据映射到高维特征空间,并在该空间中构造线性组合以实现复杂映射。RBF网络包含输入层、隐藏层(径向基层)和输出层,需解决的关键问题包括:隐藏层中心的选择、径向基函数宽度的确定,以及输出层权重的计算。本题将详细讲解RBF网络的结构设计、前向传播机制,并逐步推导其训练过程(包括聚类确定中心、宽度计算及权重优化)。
解题过程
- RBF网络结构
- 输入层:接收特征向量 \(\mathbf{x} \in \mathbb{R}^d\)。
- 隐藏层:由 \(m\) 个径向基单元组成,每个单元对应一个中心 \(\mathbf{c}_j \in \mathbb{R}^d\) 和宽度参数 \(\sigma_j\)。第 \(j\) 个单元的激活值通过径向基函数计算,常用高斯函数:
\[ \phi_j(\mathbf{x}) = \exp\left(-\frac{\|\mathbf{x} - \mathbf{c}_j\|^2}{2\sigma_j^2}\right) \]
该函数衡量输入 $\mathbf{x}$ 与中心 $\mathbf{c}_j$ 的相似度,距离越近输出越接近1。
- 输出层:隐藏层输出的线性组合,对于回归任务(单输出):
\[ f(\mathbf{x}) = \sum_{j=1}^m w_j \phi_j(\mathbf{x}) + b \]
其中 $w_j$ 为权重,$b$ 为偏置。分类任务可接Softmax函数。
- 训练步骤
-
步骤1:确定隐藏层中心 \(\mathbf{c}_j\)
通常使用无监督方法选择中心,避免随机初始化带来的不稳定性:- K-means聚类:将训练数据 \(\{\mathbf{x}_1, \dots, \mathbf{x}_n\}\) 聚为 \(m\) 类,每类的质心作为中心 \(\mathbf{c}_j\)。
- 流程:
- 随机初始化 \(m\) 个聚类中心。
- 将每个样本分配到最近的中心所属类别。
- 重新计算每个类的质心作为新中心。
- 重复步骤2-3直至中心收敛。
-
步骤2:计算径向基宽度 \(\sigma_j\)
宽度决定径向基函数的平滑度。常用方法:- 最近邻启发式:对于每个中心 \(\mathbf{c}_j\),计算其与最近 \(p\) 个其他中心的平均距离:
-
\[ \sigma_j = \frac{1}{p} \sum_{k=1}^p \|\mathbf{c}_j - \mathbf{c}_{k}\| \]
通常取 $p=2$ 或所有中心的平均距离。
- **全局统一宽度**:设置 $\sigma = \frac{\max_{i,j} \|\mathbf{c}_i - \mathbf{c}_j\|}{\sqrt{2m}}$,确保函数重叠适度。
- 步骤3:计算输出层权重 \(w_j\)
隐藏层输出矩阵 \(\Phi \in \mathbb{R}^{n \times m}\),其中 \(\Phi_{ij} = \phi_j(\mathbf{x}_i)\)。目标是最小化输出误差:
\[ \min_{\mathbf{w}} \|\Phi \mathbf{w} - \mathbf{y}\|^2 \]
- **直接求解**:若 $m$ 较小,可通过最小二乘法得闭式解:
\[ \mathbf{w} = (\Phi^\top \Phi + \lambda I)^{-1} \Phi^\top \mathbf{y} \]
其中 $\lambda$ 为正则化系数,防止过拟合。
- **梯度下降**:若 $m$ 较大,迭代更新权重:
\[ \mathbf{w} \leftarrow \mathbf{w} - \eta \Phi^\top (\Phi \mathbf{w} - \mathbf{y}) \]
$\eta$ 为学习率。
- 关键特性
- 局部响应:每个径向基单元仅对中心附近的输入敏感,适合学习局部模式。
- 通用逼近性:足够多的隐藏单元可逼近任意连续函数。
- 训练效率:中心确定后,权重计算为线性问题,速度快于多层感知机。
总结
RBF网络通过聚类确定中心、启发式设置宽度、线性回归求解权重,将非线性问题转化为高维空间中的线性问题。其训练过程结合了无监督(中心选择)与有监督(权重学习)方法,平衡了表达能力和计算效率。