深度学习中的随机傅里叶特征(Random Fourier Features, RFF)原理与核方法近似加速机制
字数 6185 2025-12-17 23:07:27

深度学习中的随机傅里叶特征(Random Fourier Features, RFF)原理与核方法近似加速机制

题目描述

随机傅里叶特征(RFF)是一种将数据从原始空间(如高维特征空间)通过随机投影映射到一个低维、显式的特征空间的方法,使得原本在原始空间中需要通过核函数(如高斯核)计算的内积,可以在这个低维空间中用简单的点积高效近似。这一技术的关键在于,它能够显著加速大规模核方法(如核SVM、核岭回归、高斯过程等)的训练和推理过程,将时间复杂度从\(O(n^2)\)\(O(n^3)\)降低到近似线性\(O(nd)\)(n为样本数,d为映射后的特征维度),从而使得核方法能够应用于大规模数据集。

解题过程(原理与机制讲解)

第一步:核方法的瓶颈与动机

  1. 核方法的优势:许多经典机器学习算法(如支持向量机SVM、岭回归、主成分分析PCA)可以“核化”,即通过核函数 \(k(\mathbf{x}, \mathbf{y}) = \langle \phi(\mathbf{x}), \phi(\mathbf{y}) \rangle_{\mathcal{H}}\) 隐式地将数据映射到一个高维甚至无限维的特征空间\(\mathcal{H}\)(称为再生核希尔伯特空间,RKHS),从而在线性不可分的数据上学习非线性模式。常用的高斯核(RBF核) \(k(\mathbf{x}, \mathbf{y}) = \exp(-\gamma \|\mathbf{x} - \mathbf{y}\|^2)\) 就是一个典型的例子。
  2. 计算瓶颈:核方法的核心是计算并存储所有样本对之间的核矩阵(Gram矩阵)\(\mathbf{K} \in \mathbb{R}^{n \times n}\),其中\(\mathbf{K}_{ij} = k(\mathbf{x}_i, \mathbf{x}_j)\)。对于n个样本,这需要\(O(n^2)\)时间和\(O(n^2)\)内存。在训练阶段(例如求解对偶问题),还需要对核矩阵进行求逆或分解,通常需要\(O(n^3)\)时间。当n很大(例如数十万以上)时,这变得不可行。
  3. 核心思路:如果我们能找到一个明确的、低维的特征映射函数\(\mathbf{z}: \mathbb{R}^D \to \mathbb{R}^d\)(其中 \(d \ll n\)),使得 \(k(\mathbf{x}, \mathbf{y}) \approx \mathbf{z}(\mathbf{x})^\top \mathbf{z}(\mathbf{y})\),那么我们就可以用\(\mathbf{z}(\mathbf{x})\)作为新特征,在原始样本的显式特征表示上直接运行标准的线性模型(如线性SVM、线性回归)。这样,训练和预测的时间复杂度就变为\(O(nd)\),与样本数n成线性关系。

第二步:从核函数到随机特征映射——理论基础(Bochner定理)

  1. 关键定理:随机傅里叶特征的理论基础是Bochner定理。该定理指出,任何平移不变核(即 \(k(\mathbf{x}, \mathbf{x}') = k(\mathbf{x} - \mathbf{x}')\) ,例如高斯核、拉普拉斯核)的傅里叶变换是一个非负的测度(可以视为概率分布)。
  2. 高斯核的推导
    • 高斯核: \(k(\mathbf{x} - \mathbf{y}) = \exp(-\gamma \|\mathbf{x} - \mathbf{y}\|^2)\)
    • 根据Bochner定理,它可以被表示为其傅里叶变换的期望形式:

\[ k(\mathbf{x} - \mathbf{y}) = \mathbb{E}_{\boldsymbol{\omega} \sim p(\boldsymbol{\omega})}[\cos(\boldsymbol{\omega}^\top (\mathbf{x} - \mathbf{y}))] \]

* 其中,概率分布 $p(\boldsymbol{\omega})$ 正是高斯核傅里叶变换对应的分布。对于高斯核 $k(\mathbf{x} - \mathbf{y}) = \exp(-\gamma \|\mathbf{x} - \mathbf{y}\|^2)$,其对应的 $p(\boldsymbol{\omega})$ 也是一个高斯分布:$\boldsymbol{\omega} \sim \mathcal{N}(\mathbf{0}, 2\gamma \mathbf{I})$。
  1. 构造特征映射:利用三角恒等式 \(\cos(a-b) = \cos(a)\cos(b) + \sin(a)\sin(b)\),我们可以将上述期望分解:

\[ k(\mathbf{x} - \mathbf{y}) = \mathbb{E}_{\boldsymbol{\omega}}[\cos(\boldsymbol{\omega}^\top \mathbf{x})\cos(\boldsymbol{\omega}^\top \mathbf{y}) + \sin(\boldsymbol{\omega}^\top \mathbf{x})\sin(\boldsymbol{\omega}^\top \mathbf{y})] \]

\[ = \mathbb{E}_{(\boldsymbol{\omega}, b)}[\sqrt{2}\cos(\boldsymbol{\omega}^\top \mathbf{x} + b) \cdot \sqrt{2}\cos(\boldsymbol{\omega}^\top \mathbf{y} + b)] \]

其中,$\boldsymbol{\omega} \sim p(\boldsymbol{\omega})$,并且增加了一个均匀分布的随机偏置 $b \sim \text{Uniform}(0, 2\pi)$。这一步利用了 $\cos(u)\cos(v)+\sin(u)\sin(v) = \cos(u-v)$ 的恒等式,并通过引入随机的相位偏移 $b$ 来使期望形式更简洁。

第三步:蒙特卡洛近似与特征映射构建

  1. 蒙特卡洛采样:我们用蒙特卡洛方法来近似上面公式中的期望。具体地,从分布 \(p(\boldsymbol{\omega})\) 中独立采样 \(d/2\) 个随机向量 \(\boldsymbol{\omega}_1, \boldsymbol{\omega}_2, ..., \boldsymbol{\omega}_{d/2} \in \mathbb{R}^D\),并从均匀分布中采样 \(d/2\) 个偏置 \(b_1, b_2, ..., b_{d/2} \in [0, 2\pi]\)
  2. 定义显式特征映射
    • 对于第 \(j\) 个随机特征对 \((\boldsymbol{\omega}_j, b_j)\),计算:

\[ \phi_j(\mathbf{x}) = \sqrt{\frac{2}{d/2}} \cos(\boldsymbol{\omega}_j^\top \mathbf{x} + b_j) \]

* 将所有这些特征拼接起来,就得到了映射后的特征向量 $\mathbf{z}(\mathbf{x}) \in \mathbb{R}^{d}$:

\[ \mathbf{z}(\mathbf{x}) = \sqrt{\frac{2}{d/2}} [\cos(\boldsymbol{\omega}_1^\top \mathbf{x} + b_1), \sin(\boldsymbol{\omega}_1^\top \mathbf{x} + b_1), ..., \cos(\boldsymbol{\omega}_{d/2}^\top \mathbf{x} + b_{d/2}), \sin(\boldsymbol{\omega}_{d/2}^\top \mathbf{x} + b_{d/2})]^\top \]

* 也可以使用更常见的、等价的构造(基于最初推导的$\cos$形式):

\[ \mathbf{z}(\mathbf{x}) = \sqrt{\frac{2}{d}} [\cos(\boldsymbol{\omega}_1^\top \mathbf{x} + b_1), \cos(\boldsymbol{\omega}_2^\top \mathbf{x} + b_2), ..., \cos(\boldsymbol{\omega}_d^\top \mathbf{x} + b_d)]^\top \]

    这里我们直接从 $p(\boldsymbol{\omega})$ 采样 $d$ 个 $\boldsymbol{\omega}$ 和 $d$ 个 $b$。在下面的推导中,我们采用这种形式,因为它更简洁,并且与原始论文的最终公式一致。
  1. 近似核函数:通过这种构造,我们有:

\[ k(\mathbf{x}, \mathbf{y}) = \exp(-\gamma \|\mathbf{x} - \mathbf{y}\|^2) \approx \mathbf{z}(\mathbf{x})^\top \mathbf{z}(\mathbf{y}) = \frac{1}{d} \sum_{j=1}^{d} 2\cos(\boldsymbol{\omega}_j^\top \mathbf{x} + b_j) \cos(\boldsymbol{\omega}_j^\top \mathbf{y} + b_j) \]

当 $d$ 足够大时,根据大数定律,这个点积会收敛到真实的核函数值。

第四步:算法流程与特性

  1. 训练阶段
    • 输入: 训练集 \(\{\mathbf{x}_i, y_i\}_{i=1}^n\),核参数 \(\gamma\)(对于高斯核),目标特征维度 \(d\)
    • 步骤1(离线预处理)
      • 计算随机权重矩阵 \(\mathbf{W} \in \mathbb{R}^{d \times D}\),其每一行 \(\mathbf{w}_j \sim \mathcal{N}(\mathbf{0}, 2\gamma \mathbf{I})\)
      • 计算随机偏置向量 \(\mathbf{b} \in \mathbb{R}^{d}\),其每一维 \(b_j \sim \text{Uniform}(0, 2\pi)\)
    • 步骤2(特征变换)
      • 对每个训练样本 \(\mathbf{x}_i \in \mathbb{R}^D\),计算其RFF特征:

\[ \mathbf{z}_i = \sqrt{\frac{2}{d}} \cos(\mathbf{W} \mathbf{x}_i + \mathbf{b}) \in \mathbb{R}^d \]

    * 将所有样本的RFF特征堆叠成矩阵 $\mathbf{Z} \in \mathbb{R}^{n \times d}$。
* **步骤3(线性模型训练)**:
    * 将 $\mathbf{Z}$ 和对应的标签 $\mathbf{y}$ 输入到任何一个标准的线性模型(如带L2正则化的线性回归、线性SVM、逻辑回归等)进行训练。例如,求解 $\min_{\boldsymbol{\theta}} \frac{1}{n}\sum_{i=1}^n L(y_i, \boldsymbol{\theta}^\top \mathbf{z}_i) + \lambda \|\boldsymbol{\theta}\|^2$。
  1. 预测阶段
    • 对于新样本 \(\mathbf{x}_{\text{new}}\),首先用同样的 \(\mathbf{W}\)\(\mathbf{b}\) 计算其RFF特征 \(\mathbf{z}_{\text{new}}\),然后使用训练好的线性模型参数 \(\hat{\boldsymbol{\theta}}\) 进行预测:\(\hat{y} = \hat{\boldsymbol{\theta}}^\top \mathbf{z}_{\text{new}}\)
  2. 关键特性
    • 无状态转换: 映射 \(\mathbf{z}(\cdot)\) 是确定性的、无参数的(除了随机初始化的 \(\mathbf{W}, \mathbf{b}\))。它不依赖于训练数据,可以预先计算,也可以在线(流式)应用。
    • 可并行性: 对每个样本的特征计算是独立的,可以高度并行化。
    • 内存和计算效率: 不再需要存储 \(O(n^2)\) 的核矩阵,只需要存储 \(O(nd)\) 的显式特征矩阵,并且训练线性模型的时间复杂度是 \(O(nd^2)\) 或更低(取决于线性求解器)。当 \(d \ll n\) 时,优势巨大。

第五步:理论保证、优势、局限与扩展

  1. 理论保证
    • 由于RFF本质上是蒙特卡洛近似,其近似误差以 \(O(1/\sqrt{d})\) 的速度下降。这意味着要提高近似精度,只需增加特征维度 \(d\) 即可。
    • 通过更复杂的采样策略(如拟蒙特卡洛,使用低差异序列)可以减少方差,从而在相同 \(d\) 下获得更精确的近似。
  2. 核心优势
    • 大幅加速: 将核方法从 \(O(n^3)\) 的立方级复杂度降为 \(O(nd^2)\) 的近似线性复杂度,使得大规模数据应用成为可能。
    • 简单通用: 实现简单,只需在数据预处理时进行一次随机投影,之后就可以使用任何高效、成熟的线性模型库。
    • 在线学习友好: 由于映射固定,可以方便地处理流式数据或新样本。
  3. 主要局限
    • 近似误差: 这是一种有损近似。为了获得高精度,可能需要较大的 \(d\)(如数千甚至上万维),这会部分抵消计算优势。
    • 不适用于非平移不变核: 标准RFF只适用于平移不变核(高斯核、拉普拉斯核等)。对于多项式核等其他核函数,需要不同的近似方案。
  4. 扩展与改进
    • 正交随机特征: 对采样的 \(\boldsymbol{\omega}\) 进行正交化,可以减少随机性带来的方差,提高近似质量。
    • 结构化随机特征: 通过使用结构化随机矩阵(如通过快速傅里叶变换FFT),可以进一步将特征计算从 \(O(Dd)\) 加速到 \(O(D \log d)\),特别适用于高维原始输入(D很大)的场景。

总结:随机傅里叶特征是一种巧妙的、基于蒙特卡洛近似的技术,它将非线性核方法的强大表达能力与线性模型的训练效率结合起来。其核心在于利用Bochner定理,将核函数内积转化为随机投影的期望,再通过采样构建出显式的、低维的随机特征。这使得我们能够“绕过”昂贵的内核矩阵计算,直接在大规模数据上高效地应用核方法的非线性优势。

深度学习中的随机傅里叶特征(Random Fourier Features, RFF)原理与核方法近似加速机制 题目描述 随机傅里叶特征(RFF)是一种将数据从原始空间(如高维特征空间)通过随机投影映射到一个低维、显式的特征空间的方法,使得原本在原始空间中需要通过核函数(如高斯核)计算的内积,可以在这个低维空间中用简单的点积高效近似。这一技术的关键在于,它能够显著加速大规模核方法(如核SVM、核岭回归、高斯过程等)的训练和推理过程,将时间复杂度从\(O(n^2)\)或\(O(n^3)\)降低到近似线性\(O(nd)\)(n为样本数,d为映射后的特征维度),从而使得核方法能够应用于大规模数据集。 解题过程(原理与机制讲解) 第一步:核方法的瓶颈与动机 核方法的优势 :许多经典机器学习算法(如支持向量机SVM、岭回归、主成分分析PCA)可以“核化”,即通过核函数 \(k(\mathbf{x}, \mathbf{y}) = \langle \phi(\mathbf{x}), \phi(\mathbf{y}) \rangle_ {\mathcal{H}}\) 隐式地将数据映射到一个高维甚至无限维的特征空间\(\mathcal{H}\)(称为再生核希尔伯特空间,RKHS),从而在线性不可分的数据上学习非线性模式。常用的高斯核(RBF核) \(k(\mathbf{x}, \mathbf{y}) = \exp(-\gamma \|\mathbf{x} - \mathbf{y}\|^2)\) 就是一个典型的例子。 计算瓶颈 :核方法的核心是计算并存储所有样本对之间的核矩阵(Gram矩阵)\(\mathbf{K} \in \mathbb{R}^{n \times n}\),其中\(\mathbf{K}_ {ij} = k(\mathbf{x}_ i, \mathbf{x}_ j)\)。对于n个样本,这需要\(O(n^2)\)时间和\(O(n^2)\)内存。在训练阶段(例如求解对偶问题),还需要对核矩阵进行求逆或分解,通常需要\(O(n^3)\)时间。当n很大(例如数十万以上)时,这变得不可行。 核心思路 :如果我们能找到一个明确的、低维的特征映射函数\(\mathbf{z}: \mathbb{R}^D \to \mathbb{R}^d\)(其中 \(d \ll n\)),使得 \(k(\mathbf{x}, \mathbf{y}) \approx \mathbf{z}(\mathbf{x})^\top \mathbf{z}(\mathbf{y})\),那么我们就可以用\(\mathbf{z}(\mathbf{x})\)作为新特征,在原始样本的显式特征表示上直接运行标准的线性模型(如线性SVM、线性回归)。这样,训练和预测的时间复杂度就变为\(O(nd)\),与样本数n成线性关系。 第二步:从核函数到随机特征映射——理论基础(Bochner定理) 关键定理 :随机傅里叶特征的理论基础是 Bochner定理 。该定理指出,任何平移不变核(即 \(k(\mathbf{x}, \mathbf{x}') = k(\mathbf{x} - \mathbf{x}')\) ,例如高斯核、拉普拉斯核)的傅里叶变换是一个非负的测度(可以视为概率分布)。 高斯核的推导 : 高斯核: \(k(\mathbf{x} - \mathbf{y}) = \exp(-\gamma \|\mathbf{x} - \mathbf{y}\|^2)\)。 根据Bochner定理,它可以被表示为其傅里叶变换的期望形式: \[ k(\mathbf{x} - \mathbf{y}) = \mathbb{E}_ {\boldsymbol{\omega} \sim p(\boldsymbol{\omega})}[ \cos(\boldsymbol{\omega}^\top (\mathbf{x} - \mathbf{y})) ] \] 其中,概率分布 \(p(\boldsymbol{\omega})\) 正是高斯核傅里叶变换对应的分布。对于高斯核 \(k(\mathbf{x} - \mathbf{y}) = \exp(-\gamma \|\mathbf{x} - \mathbf{y}\|^2)\),其对应的 \(p(\boldsymbol{\omega})\) 也是一个高斯分布:\(\boldsymbol{\omega} \sim \mathcal{N}(\mathbf{0}, 2\gamma \mathbf{I})\)。 构造特征映射 :利用三角恒等式 \(\cos(a-b) = \cos(a)\cos(b) + \sin(a)\sin(b)\),我们可以将上述期望分解: \[ k(\mathbf{x} - \mathbf{y}) = \mathbb{E} {\boldsymbol{\omega}}[ \cos(\boldsymbol{\omega}^\top \mathbf{x})\cos(\boldsymbol{\omega}^\top \mathbf{y}) + \sin(\boldsymbol{\omega}^\top \mathbf{x})\sin(\boldsymbol{\omega}^\top \mathbf{y}) ] \] \[ = \mathbb{E} {(\boldsymbol{\omega}, b)}[ \sqrt{2}\cos(\boldsymbol{\omega}^\top \mathbf{x} + b) \cdot \sqrt{2}\cos(\boldsymbol{\omega}^\top \mathbf{y} + b) ] \] 其中,\(\boldsymbol{\omega} \sim p(\boldsymbol{\omega})\),并且增加了一个均匀分布的随机偏置 \(b \sim \text{Uniform}(0, 2\pi)\)。这一步利用了 \(\cos(u)\cos(v)+\sin(u)\sin(v) = \cos(u-v)\) 的恒等式,并通过引入随机的相位偏移 \(b\) 来使期望形式更简洁。 第三步:蒙特卡洛近似与特征映射构建 蒙特卡洛采样 :我们用蒙特卡洛方法来近似上面公式中的期望。具体地,从分布 \(p(\boldsymbol{\omega})\) 中独立采样 \(d/2\) 个随机向量 \(\boldsymbol{\omega} 1, \boldsymbol{\omega} 2, ..., \boldsymbol{\omega} {d/2} \in \mathbb{R}^D\),并从均匀分布中采样 \(d/2\) 个偏置 \(b_ 1, b_ 2, ..., b {d/2} \in [ 0, 2\pi ]\)。 定义显式特征映射 : 对于第 \(j\) 个随机特征对 \((\boldsymbol{\omega}_ j, b_ j)\),计算: \[ \phi_ j(\mathbf{x}) = \sqrt{\frac{2}{d/2}} \cos(\boldsymbol{\omega}_ j^\top \mathbf{x} + b_ j) \] 将所有这些特征拼接起来,就得到了映射后的特征向量 \(\mathbf{z}(\mathbf{x}) \in \mathbb{R}^{d}\): \[ \mathbf{z}(\mathbf{x}) = \sqrt{\frac{2}{d/2}} [ \cos(\boldsymbol{\omega} 1^\top \mathbf{x} + b_ 1), \sin(\boldsymbol{\omega} 1^\top \mathbf{x} + b_ 1), ..., \cos(\boldsymbol{\omega} {d/2}^\top \mathbf{x} + b {d/2}), \sin(\boldsymbol{\omega} {d/2}^\top \mathbf{x} + b {d/2}) ]^\top \] 也可以使用更常见的、等价的构造(基于最初推导的\(\cos\)形式): \[ \mathbf{z}(\mathbf{x}) = \sqrt{\frac{2}{d}} [ \cos(\boldsymbol{\omega}_ 1^\top \mathbf{x} + b_ 1), \cos(\boldsymbol{\omega}_ 2^\top \mathbf{x} + b_ 2), ..., \cos(\boldsymbol{\omega}_ d^\top \mathbf{x} + b_ d) ]^\top \] 这里我们直接从 \(p(\boldsymbol{\omega})\) 采样 \(d\) 个 \(\boldsymbol{\omega}\) 和 \(d\) 个 \(b\)。在下面的推导中,我们采用这种形式,因为它更简洁,并且与原始论文的最终公式一致。 近似核函数 :通过这种构造,我们有: \[ k(\mathbf{x}, \mathbf{y}) = \exp(-\gamma \|\mathbf{x} - \mathbf{y}\|^2) \approx \mathbf{z}(\mathbf{x})^\top \mathbf{z}(\mathbf{y}) = \frac{1}{d} \sum_ {j=1}^{d} 2\cos(\boldsymbol{\omega}_ j^\top \mathbf{x} + b_ j) \cos(\boldsymbol{\omega}_ j^\top \mathbf{y} + b_ j) \] 当 \(d\) 足够大时,根据大数定律,这个点积会收敛到真实的核函数值。 第四步:算法流程与特性 训练阶段 : 输入 : 训练集 \(\{\mathbf{x} i, y_ i\} {i=1}^n\),核参数 \(\gamma\)(对于高斯核),目标特征维度 \(d\)。 步骤1(离线预处理) : 计算随机权重矩阵 \(\mathbf{W} \in \mathbb{R}^{d \times D}\),其每一行 \(\mathbf{w}_ j \sim \mathcal{N}(\mathbf{0}, 2\gamma \mathbf{I})\)。 计算随机偏置向量 \(\mathbf{b} \in \mathbb{R}^{d}\),其每一维 \(b_ j \sim \text{Uniform}(0, 2\pi)\)。 步骤2(特征变换) : 对每个训练样本 \(\mathbf{x}_ i \in \mathbb{R}^D\),计算其RFF特征: \[ \mathbf{z}_ i = \sqrt{\frac{2}{d}} \cos(\mathbf{W} \mathbf{x}_ i + \mathbf{b}) \in \mathbb{R}^d \] 将所有样本的RFF特征堆叠成矩阵 \(\mathbf{Z} \in \mathbb{R}^{n \times d}\)。 步骤3(线性模型训练) : 将 \(\mathbf{Z}\) 和对应的标签 \(\mathbf{y}\) 输入到任何一个标准的线性模型(如带L2正则化的线性回归、线性SVM、逻辑回归等)进行训练。例如,求解 \(\min_ {\boldsymbol{\theta}} \frac{1}{n}\sum_ {i=1}^n L(y_ i, \boldsymbol{\theta}^\top \mathbf{z}_ i) + \lambda \|\boldsymbol{\theta}\|^2\)。 预测阶段 : 对于新样本 \(\mathbf{x} {\text{new}}\),首先用同样的 \(\mathbf{W}\) 和 \(\mathbf{b}\) 计算其RFF特征 \(\mathbf{z} {\text{new}}\),然后使用训练好的线性模型参数 \(\hat{\boldsymbol{\theta}}\) 进行预测:\(\hat{y} = \hat{\boldsymbol{\theta}}^\top \mathbf{z}_ {\text{new}}\)。 关键特性 : 无状态转换 : 映射 \(\mathbf{z}(\cdot)\) 是确定性的、无参数的(除了随机初始化的 \(\mathbf{W}, \mathbf{b}\))。它不依赖于训练数据,可以预先计算,也可以在线(流式)应用。 可并行性 : 对每个样本的特征计算是独立的,可以高度并行化。 内存和计算效率 : 不再需要存储 \(O(n^2)\) 的核矩阵,只需要存储 \(O(nd)\) 的显式特征矩阵,并且训练线性模型的时间复杂度是 \(O(nd^2)\) 或更低(取决于线性求解器)。当 \(d \ll n\) 时,优势巨大。 第五步:理论保证、优势、局限与扩展 理论保证 : 由于RFF本质上是蒙特卡洛近似,其近似误差以 \(O(1/\sqrt{d})\) 的速度下降。这意味着要提高近似精度,只需增加特征维度 \(d\) 即可。 通过更复杂的采样策略(如拟蒙特卡洛,使用低差异序列)可以减少方差,从而在相同 \(d\) 下获得更精确的近似。 核心优势 : 大幅加速 : 将核方法从 \(O(n^3)\) 的立方级复杂度降为 \(O(nd^2)\) 的近似线性复杂度,使得大规模数据应用成为可能。 简单通用 : 实现简单,只需在数据预处理时进行一次随机投影,之后就可以使用任何高效、成熟的线性模型库。 在线学习友好 : 由于映射固定,可以方便地处理流式数据或新样本。 主要局限 : 近似误差 : 这是一种有损近似。为了获得高精度,可能需要较大的 \(d\)(如数千甚至上万维),这会部分抵消计算优势。 不适用于非平移不变核 : 标准RFF只适用于平移不变核(高斯核、拉普拉斯核等)。对于多项式核等其他核函数,需要不同的近似方案。 扩展与改进 : 正交随机特征 : 对采样的 \(\boldsymbol{\omega}\) 进行正交化,可以减少随机性带来的方差,提高近似质量。 结构化随机特征 : 通过使用结构化随机矩阵(如通过快速傅里叶变换FFT),可以进一步将特征计算从 \(O(Dd)\) 加速到 \(O(D \log d)\),特别适用于高维原始输入(D很大)的场景。 总结 :随机傅里叶特征是一种巧妙的、基于蒙特卡洛近似的技术,它将非线性核方法的强大表达能力与线性模型的训练效率结合起来。其核心在于利用Bochner定理,将核函数内积转化为随机投影的期望,再通过采样构建出显式的、低维的随机特征。这使得我们能够“绕过”昂贵的内核矩阵计算,直接在大规模数据上高效地应用核方法的非线性优势。