基于图神经网络的多文档摘要算法
算法描述
多文档摘要是自然语言处理中的一个核心任务,旨在从一组关于同一主题的文档集合中,生成一个简洁、连贯、信息丰富且覆盖关键内容的摘要。与单文档摘要不同,多文档摘要需要处理来自不同来源的信息冗余、冲突和互补性,并组织成一个逻辑连贯的整体。
基于图神经网络(Graph Neural Network, GNN)的方法是该领域的重要技术路线。其核心思想是将文档集合建模为一个图(Graph),其中节点代表文本单元(如句子、实体或概念),边代表单元间的关系(如语义相似性、指代关系、时序关系等)。通过GNN在此图上进行消息传递和节点表示学习,可以更好地捕捉跨文档的全局结构和信息交互,从而识别出最重要的、最具代表性的内容用于生成摘要。
解题过程详解
我们以一种经典的基于句子级图神经网络的抽取式多文档摘要方法为例,其流程主要分为:图构建、图表示学习、句子重要性打分和摘要生成四个阶段。
步骤一:图构建
目标是将文档集合转化为一个可供GNN处理的图结构。
- 节点定义:将输入的所有文档进行句子分割,每一个句子作为一个图节点。假设共有N个句子。
- 边定义:在句子节点之间建立连接边。常用的边构建策略有两种:
- 基于相似度的边:计算任意两个句子节点
i和j的余弦相似度(可以使用TF-IDF向量或预训练模型如BERT得到的句子嵌入)。如果相似度超过一个预设阈值θ,则在它们之间添加一条无向边,边的权重即为相似度值。这能连接语义相近的句子,形成主题簇。 - 基于文档内位置的边:为了保留单文档内的局部连贯性,可以在同一个文档内,为相邻的句子节点之间添加边(如前一句与后一句),权重可以设为固定值(如1.0)或根据位置衰减。
- 基于相似度的边:计算任意两个句子节点
- 图结构表示:最终,我们得到一个无向加权图
G = (V, E, A)。其中V是N个句子节点集合,E是边集合,A是一个N×N的邻接矩阵,A_ij表示节点i和j之间边的权重(无边则为0)。
步骤二:节点初始特征编码
在将图输入GNN之前,需要为每个句子节点初始化一个特征向量。
- 使用一个预训练的词/句子编码器(如BERT、Sentence-BERT)将每个句子编码成一个固定维度的稠密向量。
- 每个句子的编码向量就作为对应节点的初始特征
h_i^(0)。这个初始特征已经包含了丰富的语义信息。
步骤三:基于图神经网络的消息传递与表示学习
这是算法的核心。GNN通过在图上迭代地进行“消息传递”,让每个节点聚合其邻居节点的信息,从而更新自身的表示。更新后的节点表示不仅包含自身信息,还蕴含了图结构的上下文信息。
- 消息函数:在每一层
l,对于节点i,其邻居j传递给它的“消息”通常是邻居节点上一层的表示h_j^(l-1)经过一个变换(如线性层)。 - 聚合函数:节点
i从所有邻居那里收集消息,并进行聚合。常用的聚合方式有:求和(Sum)、均值(Mean) 或 注意力加权和(Attention)。注意力机制尤为有效,它可以让节点更关注那些与自身更相关(边权重更高)的邻居。例如,注意力系数可以计算为:
α_ij = softmax( LeakyReLU( a^T [W h_i^(l-1) || W h_j^(l-1)] ) ),其中a和W是可学习参数,||表示拼接。然后消息按此系数加权聚合。 - 更新函数:节点
i将聚合后的邻居消息与自身的上一轮表示结合,通过一个更新函数(如一个非线性变换加上残差连接)得到本轮的新表示h_i^(l)。公式可简化为:
h_i^(l) = UPDATE( h_i^(l-1), AGGREGATE( {h_j^(l-1), for j in Neighbor(i)} ) )。 - 多层堆叠:重复上述消息传递过程L层(通常2-3层)。经过L层后,每个节点的最终表示
h_i^(L)就包含了其L跳邻居范围内的全局信息。这使得模型能够识别出那些被许多重要邻居围绕(即处于图中心位置、与多个主题相关)的关键句子。
步骤四:句子重要性打分与摘要生成
基于学习到的节点最终表示,为每个句子计算一个重要性分数。
- 打分函数:将每个节点的最终表示
h_i^(L)输入一个全连接层(后接Sigmoid或线性层),输出一个标量分数s_i,代表该句子的重要性。 - 训练目标:在训练阶段,需要标准摘要(人工撰写)作为监督信号。一种常见的方法是,将标准摘要与原文句子进行ROUGE评分,为每个原文句子分配一个0/1标签(如果与标准摘要有足够重叠则为1,否则为0),或者一个连续的ROUGE-F1分数作为软标签。模型的训练目标是最小化预测分数
s_i与标签之间的损失(如二元交叉熵或均方误差)。 - 摘要抽取:在推理(生成摘要)阶段:
a. 根据预测出的句子重要性分数s_i对所有句子进行降序排序。
b. 从高分到低分依次选择句子加入摘要候选集,直到达到摘要长度限制(如单词数上限)。
c. 为了避免信息冗余,在选取过程中可以加入多样性约束。例如,在考虑一个新句子时,计算其与已选摘要候选集中所有句子的最大相似度,如果高于某个阈值,则跳过该句,选择下一个。这确保了摘要覆盖不同的子主题。
d. 最后,将所有被选中的句子按照其在原文中出现的时间或逻辑顺序(通常是按文档和文档内位置重新排序)进行组织,形成最终的可读摘要。
核心思想与优势
该方法的核心在于利用图结构显式地建模了多文档集合中复杂的句子间关系网络,并利用GNN的消息传递机制让信息在这个网络上流动和聚合。这使得模型能够从全局视角评估句子重要性,那些连接紧密、位于信息交叉点的句子(类似于社交网络中的中心人物)更容易被识别为关键句。其主要优势在于能够有效处理冗余、发现跨文档共识、捕捉文档间的补充信息,从而生成覆盖更全面、去冗余的摘要。