并行与分布式系统中的并行后缀自动机构建:Suffix Automaton Building via Blumer-Blumer-Ehrenfeucht-Haussler (BBE) 算法并行化
1. 题目描述
给定一个长度为 \(n\) 的字符串 \(S\),我们要构造它的后缀自动机(Suffix Automaton, SAM)。后缀自动机是一种有限状态自动机,它能接受 \(S\) 的所有后缀(及所有子串),并且是满足此性质的状态数最少的确定性自动机。它在字符串匹配、子串统计、模式搜索等领域有广泛应用。
本题要求:在并行与分布式环境下,设计一个高效算法来构建字符串 \(S\) \) 的后缀自动机。由于SAM的标准在线构造算法(如Ukkonen风格)本质上是串行的(一次添加一个字符),因此需要一种可并行化的替代方法。这里我们选用基于后缀树转换的Blumer-Blumer-Ehrenfeucht-Haussler (BBE) 算法,并对其进行并行化。
2. 解题过程
步骤1:回顾后缀自动机与后缀树的关系
后缀自动机与后缀树(更准确地说,是逆串的后缀树)存在密切的对偶关系。具体来说,对于字符串 \(S\),构造其逆串 \(S^R\) 的后缀树,则后缀自动机的状态与后缀树的节点一一对应(除了自动机的初始状态对应后缀树的根)。后缀自动机的转移边与后缀树中的后缀链接(suffix link)方向相反。这个关系是BBE算法的理论基础。
步骤2:整体并行化思路
- 并行构建逆串 \(S^R\) 的后缀树。
- 并行地将后缀树转换为后缀自动机。
由于步骤2在后缀树构建完成后进行,且转换规则是局部的(每个节点的处理相对独立),因此我们重点关注步骤1的高效并行化。
步骤3:并行构建后缀树
构建后缀树有多种并行算法。这里我们选择一种基于“前缀倍增+并行排序”的方法(即DC3或倍增算法的并行化版本),但注意我们构建的是 \(S^R\) 的后缀树。
- 输入:逆串 \(S^R\),长度为 \(n\)。
- 核心思想:利用并行后缀数组构建算法(如并行DC3)得到 \(S^R\) 的后缀数组 \(SA\) 和最长公共前缀数组 \(LCP\)。
- 并行计算 \(SA\) 和 \(LCP\):
- 将 \(S^R\) 划分为若干块,分配给多个处理器。
- 并行地计算每块局部的后缀数组(例如用并行快速排序或基数排序)。
- 通过并行归并(如并行多路归并)合并这些局部后缀数组,形成全局 \(SA\)。
- 并行计算 \(LCP\) 数组:利用 \(SA\) 和 \(S^R\),设计并行算法比较相邻后缀的公共前缀长度(可借助并行前缀扫描等技巧)。
- 从 \(SA\) 和 \(LCP\) 并行构建后缀树:
- 后缀树可以通过遍历 \(SA\),利用 \(LCP\) 值构建一个虚拟的“LCP树”(实则为后缀树的压缩表示)。
- 一种方法:将 \((SA[i], LCP[i])\) 视为一个任务,并行地插入节点。但为了避免冲突,可先根据 \(LCP\) 值将任务分组,组内串行,组间并行。更常见的方法是,将构建过程视为一个离线问题:先生成所有内部节点(对应不同的 \(LCP\) 值),然后并行地连接边。
步骤4:并行转换后缀树为后缀自动机
设我们已经得到 \(S^R\) 的后缀树 \(T\)。
转换规则:
- 后缀自动机的状态 = 后缀树 \(T\) 的节点(包括根)。
- 对于后缀树中每个节点 \(u\)(代表一个子串),设其父节点到它的边标签为 \(c\alpha\)(\(c\) 是首字符,\(\alpha\) 是剩余字符串),则在后缀自动机中,从状态 \(parent(u)\) 到状态 \(u\) 添加一条转移边,标签为 \(c\)。
- 后缀自动机的后缀链接(suffix link):如果后缀树中节点 \(u\) 的后缀链接指向节点 \(v\),那么在后缀自动机中,状态 \(u\) 的后缀链接指向状态 \(v\)。
注意:这里的方向是相反的,因为自动机是接受原串 \(S\) 的后缀,而后缀树是逆串的。
并行化转换:
- 后缀树节点(状态)的创建是独立的,可以直接并行初始化自动机状态。
- 转移边的添加:对于后缀树的每条边(从父到子),并行地添加对应的自动机转移边。
- 后缀链接的建立:后缀树的后缀链接可以在构建后缀树时并行计算(例如,在构建过程中每个节点记录其后缀链接)。然后,将这些链接复制到自动机中(注意方向)。这一步也可以并行执行,每个节点独立设置自己的后缀链接。
步骤5:处理终止状态
后缀自动机中,所有能够接受某个后缀的状态(即终止状态)需要被标记。这些状态对应于后缀树中代表 \(S^R\) 的某个前缀的节点(即原串 \(S\) 的某个后缀)。在得到后缀树后,我们可以并行地标记这些节点:从代表整个 \(S^R\) 的路径(即根到叶子路径,叶子对应 \(S^R\) 本身)上的所有节点,都是终止状态。可以通过并行向上标记(从叶子向根传递)来实现。
步骤6:复杂度与优化
- 时间复杂度:并行后缀数组构建(如DC3)可在 \(O(\frac{n}{p} + \log^2 n)\) 时间内完成(p为处理器数)。后缀树构建和转换可在 \(O(\frac{n}{p} + \log n)\) 内完成。
- 空间复杂度:\(O(n)\) 状态和转移。
- 优化点:在构建后缀树时,可以采用并行范围最小查询(RMQ)来加速 \(LCP\) 查询;在转换时,注意内存访问局部性,避免过多的远程访问。
步骤7:总结
本方法通过并行构建逆串后缀树,再并行转换为后缀自动机,巧妙地避开了串行在线算法的瓶颈。关键点在于利用成熟的并行后缀数组算法,以及后缀树到自动机的简洁对应关系。最终得到一个可以在分布式内存或多核系统中高效构建后缀自动机的并行算法。