对比学习（Contrastive Learning）中的InfoNCE损失函数原理与优化目标

字数 889 2025-10-28 20:05:13

对比学习（Contrastive Learning）中的InfoNCE损失函数原理与优化目标

题目描述：
InfoNCE（Noise-Contrastive Estimation）损失函数是对比学习中的核心组件，用于学习有意义的表示。其核心思想是拉近正样本对的表示距离，推远负样本对的表示距离。假设我们有一个查询样本q，一个正样本k+（与q语义相似），以及一组负样本{k1, k2, ..., kN}（与q语义不相似）。InfoNCE的目标是使q与k+的相似度远高于q与所有负样本的相似度。

解题过程：

相似度计算：
首先，使用编码器（如神经网络）将q和所有样本（k+, k1, k2, ...）映射到向量空间，得到归一化后的表示向量。然后计算q与每个样本的相似度，通常使用点积或余弦相似度。例如，相似度s(q, k) = qᵀk / τ，其中τ是温度超参数，用于控制分布的尖锐程度。
损失函数构建：
InfoNCE损失函数定义为：
L = -log[ exp(s(q, k+) / τ) / (exp(s(q, k+) / τ) + ∑{i=1}^{N} exp(s(q, k_i) / τ) ) ]
公式可简化为：
L = -log[ exp(s(q, k+) / τ) / ∑{j=1}^{N+1} exp(s(q, k_j) / τ) ]，其中j=1对应k+，j=2到N+1对应负样本。
优化目标解释：
损失函数本质是softmax交叉熵损失。分子鼓励q与k+的相似度最大化，分母通过对比所有负样本，惩罚q与负样本的相似度。温度参数τ的作用：当τ较小时，损失更关注困难负样本（与q相似度较高的负样本），提升特征的判别性；当τ较大时，分布更平滑，学习更稳定但区分度降低。
信息论视角：
InfoNCE与互信息（Mutual Information）相关。优化该损失等价于最大化q与k+的互信息下界，使表示能够捕获样本间的本质关联。

通过最小化InfoNCE损失，模型可以学习到具有高判别性的表示，广泛应用于自监督学习（如SimCLR、MoCo）。