最长公共子序列(LCS)
字数 2922 2025-10-27 16:26:44

最长公共子序列(LCS)

题目描述
给定两个字符串 text1text2,返回这两个字符串的最长公共子序列的长度。如果不存在公共子序列,返回 0。

一个字符串的 子序列 是指这样一个新字符串:它是由原字符串在不改变字符的相对顺序的情况下删除某些字符(也可以不删除任何字符)后组成的新字符串。例如,"ace" 是 "abcde" 的子序列,但 "aec" 不是。

示例
输入:text1 = "abcde", text2 = "ace"
输出:3
解释:最长公共子序列是 "ace",它的长度为 3。

循序渐进讲解

第一步:理解问题核心
我们的目标是找到两个字符串中都出现的一个序列,这个序列在原字符串中不需要连续,但必须保持原有的先后顺序。暴力解法是枚举一个字符串的所有子序列,检查它是否也是另一个字符串的子序列,但这样时间复杂度是指数级的,不可行。

第二步:引入动态规划思路
动态规划非常适合解决这种具有重叠子问题和最优子结构的问题。我们定义一个二维数组(或称DP表)dp[i][j],其含义是:
dp[i][j] 表示 text1 的前 i 个字符(即 text1[0..i-1])和 text2 的前 j 个字符(即 text2[0..j-1])的最长公共子序列的长度。

第三步:建立DP表并初始化
我们创建一个大小为 (len(text1)+1) x (len(text2)+1) 的二维数组 dp。多出来的一行一列(即 i=0j=0 的行和列)表示空字符串的情况。

  • 初始化:dp[0][j] = 0(text1是空字符串,与任何text2的子序列长度都是0)
  • 初始化:dp[i][0] = 0(text2是空字符串,与任何text1的子序列长度都是0)

第四步:推导状态转移方程
现在我们要思考如何根据已知状态推导出 dp[i][j]。这里有两种情况:

  1. text1[i-1] 等于 text2[j-1] (注意,因为我们的 ij 是从1开始计数的,所以对应字符下标是 i-1j-1)。
    这意味著我们找到了一个公共字符。这个字符一定属于最长公共子序列。那么,text1[0..i-1]text2[0..j-1] 的LCS长度,就等于 text1[0..i-2]text2[0..j-2] 的LCS长度再加1。
    公式:dp[i][j] = dp[i-1][j-1] + 1

  2. text1[i-1] 不等于 text2[j-1]
    这意味著当前两个字符不能同时出现在公共子序列中。那么,text1[i-1]text2[j-1] 就不可能同时出现在LCS中。我们需要考虑两种子情况:

    • LCS可能来自于 text1[0..i-1]text2[0..j-2](即忽略 text2 的当前字符)。
    • LCS也可能来自于 text1[0..i-2]text2[0..j-1](即忽略 text1 的当前字符)。
      我们应该取这两种可能中的最大值,以保证找到的是“最长”的公共子序列。
      公式:dp[i][j] = max(dp[i-1][j], dp[i][j-1])

第五步:填表过程示例
让我们用示例 text1 = "abcde", text2 = "ace" 来手动填表。
初始化的DP表如下(- 表示空字符串):

- a c e
- 0 0 0 0
a 0
b 0
c 0
d 0
e 0

现在我们按行(或按列)填充:

  • i=1, j=1: text1[0]='a', text2[0]='a',相等。dp[1][1] = dp[0][0] + 1 = 0+1 = 1
  • i=1, j=2: text1[0]='a', text2[1]='c',不等。dp[1][2] = max(dp[0][2], dp[1][1]) = max(0, 1) = 1
  • i=1, j=3: text1[0]='a', text2[2]='e',不等。dp[1][3] = max(dp[0][3], dp[1][2]) = max(0, 1) = 1

第一行填完:

- a c e
- 0 0 0 0
a 0 1 1 1
b 0
c 0
d 0
e 0

继续填充:

  • i=2, j=1: 'b' 和 'a' 不等。dp[2][1] = max(dp[1][1], dp[2][0]) = max(1, 0) = 1
  • i=2, j=2: 'b' 和 'c' 不等。dp[2][2] = max(dp[1][2], dp[2][1]) = max(1, 1) = 1
  • i=2, j=3: 'b' 和 'e' 不等。dp[2][3] = max(dp[1][3], dp[2][2]) = max(1, 1) = 1

以此类推,最终填满的DP表如下:

- a c e
- 0 0 0 0
a 0 1 1 1
b 0 1 1 1
c 0 1 2 2
d 0 1 2 2
e 0 1 2 3

右下角的值 dp[5][3] = 3 就是我们的答案。

第六步:算法实现(Python)
根据上述思路,我们可以写出代码。

def longestCommonSubsequence(text1: str, text2: str) -> int:
    m, n = len(text1), len(text2)
    # 创建 (m+1) x (n+1) 的DP表,初始化为0
    dp = [[0] * (n + 1) for _ in range(m + 1)]
    
    # 从1开始遍历,因为0行0列已经初始化好了
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if text1[i-1] == text2[j-1]:
                # 字符匹配,长度加1
                dp[i][j] = dp[i-1][j-1] + 1
            else:
                # 字符不匹配,取上方或左方的最大值
                dp[i][j] = max(dp[i-1][j], dp[i][j-1])
    
    # 右下角的值即为最终答案
    return dp[m][n]

第七步:复杂度分析

  • 时间复杂度:O(m * n),其中 m 和 n 分别是两个字符串的长度。我们需要填充一个 m x n 的DP表。
  • 空间复杂度:O(m * n),用于存储DP表。可以通过滚动数组优化到 O(min(m, n))。

总结
解决最长公共子序列问题的核心是定义清晰的DP状态,并推导出正确的状态转移方程。关键在于理解当末尾字符相等时,LCS长度可以加1;当不等时,需要从两个可能的子问题中选取最优解。通过自底向上填表,最终得到答案。

最长公共子序列(LCS) 题目描述 给定两个字符串 text1 和 text2 ,返回这两个字符串的最长公共子序列的长度。如果不存在公共子序列,返回 0。 一个字符串的 子序列 是指这样一个新字符串:它是由原字符串在不改变字符的相对顺序的情况下删除某些字符(也可以不删除任何字符)后组成的新字符串。例如,"ace" 是 "abcde" 的子序列,但 "aec" 不是。 示例 输入:text1 = "abcde", text2 = "ace" 输出:3 解释:最长公共子序列是 "ace",它的长度为 3。 循序渐进讲解 第一步:理解问题核心 我们的目标是找到两个字符串中都出现的一个序列,这个序列在原字符串中不需要连续,但必须保持原有的先后顺序。暴力解法是枚举一个字符串的所有子序列,检查它是否也是另一个字符串的子序列,但这样时间复杂度是指数级的,不可行。 第二步:引入动态规划思路 动态规划非常适合解决这种具有重叠子问题和最优子结构的问题。我们定义一个二维数组(或称DP表) dp[i][j] ,其含义是: dp[i][j] 表示 text1 的前 i 个字符(即 text1[0..i-1] )和 text2 的前 j 个字符(即 text2[0..j-1] )的最长公共子序列的长度。 第三步:建立DP表并初始化 我们创建一个大小为 (len(text1)+1) x (len(text2)+1) 的二维数组 dp 。多出来的一行一列(即 i=0 或 j=0 的行和列)表示空字符串的情况。 初始化: dp[0][j] = 0 (text1是空字符串,与任何text2的子序列长度都是0) 初始化: dp[i][0] = 0 (text2是空字符串,与任何text1的子序列长度都是0) 第四步:推导状态转移方程 现在我们要思考如何根据已知状态推导出 dp[i][j] 。这里有两种情况: text1[i-1] 等于 text2[j-1] (注意,因为我们的 i 和 j 是从1开始计数的,所以对应字符下标是 i-1 和 j-1 )。 这意味著我们找到了一个公共字符。这个字符一定属于最长公共子序列。那么, text1[0..i-1] 和 text2[0..j-1] 的LCS长度,就等于 text1[0..i-2] 和 text2[0..j-2] 的LCS长度再加1。 公式: dp[i][j] = dp[i-1][j-1] + 1 text1[i-1] 不等于 text2[j-1] 。 这意味著当前两个字符不能同时出现在公共子序列中。那么, text1[i-1] 和 text2[j-1] 就不可能同时出现在LCS中。我们需要考虑两种子情况: LCS可能来自于 text1[0..i-1] 和 text2[0..j-2] (即忽略 text2 的当前字符)。 LCS也可能来自于 text1[0..i-2] 和 text2[0..j-1] (即忽略 text1 的当前字符)。 我们应该取这两种可能中的最大值,以保证找到的是“最长”的公共子序列。 公式: dp[i][j] = max(dp[i-1][j], dp[i][j-1]) 第五步:填表过程示例 让我们用示例 text1 = "abcde" , text2 = "ace" 来手动填表。 初始化的DP表如下( - 表示空字符串): | | - | a | c | e | | :---- | :-: | :-: | :-: | :-: | | - | 0 | 0 | 0 | 0 | | a | 0 | | | | | b | 0 | | | | | c | 0 | | | | | d | 0 | | | | | e | 0 | | | | 现在我们按行(或按列)填充: i=1, j=1 : text1[ 0]='a', text2[ 0]='a',相等。 dp[1][1] = dp[0][0] + 1 = 0+1 = 1 i=1, j=2 : text1[ 0]='a', text2[ 1]='c',不等。 dp[1][2] = max(dp[0][2], dp[1][1]) = max(0, 1) = 1 i=1, j=3 : text1[ 0]='a', text2[ 2]='e',不等。 dp[1][3] = max(dp[0][3], dp[1][2]) = max(0, 1) = 1 第一行填完: | | - | a | c | e | | :---- | :-: | :-: | :-: | :-: | | - | 0 | 0 | 0 | 0 | | a | 0 | 1 | 1 | 1 | | b | 0 | | | | | c | 0 | | | | | d | 0 | | | | | e | 0 | | | | 继续填充: i=2, j=1 : 'b' 和 'a' 不等。 dp[2][1] = max(dp[1][1], dp[2][0]) = max(1, 0) = 1 i=2, j=2 : 'b' 和 'c' 不等。 dp[2][2] = max(dp[1][2], dp[2][1]) = max(1, 1) = 1 i=2, j=3 : 'b' 和 'e' 不等。 dp[2][3] = max(dp[1][3], dp[2][2]) = max(1, 1) = 1 以此类推,最终填满的DP表如下: | | - | a | c | e | | :---- | :-: | :-: | :-: | :-: | | - | 0 | 0 | 0 | 0 | | a | 0 | 1 | 1 | 1 | | b | 0 | 1 | 1 | 1 | | c | 0 | 1 | 2 | 2 | | d | 0 | 1 | 2 | 2 | | e | 0 | 1 | 2 | 3 | 右下角的值 dp[5][3] = 3 就是我们的答案。 第六步:算法实现(Python) 根据上述思路,我们可以写出代码。 第七步:复杂度分析 时间复杂度 :O(m * n),其中 m 和 n 分别是两个字符串的长度。我们需要填充一个 m x n 的DP表。 空间复杂度 :O(m * n),用于存储DP表。可以通过滚动数组优化到 O(min(m, n))。 总结 解决最长公共子序列问题的核心是定义清晰的DP状态,并推导出正确的状态转移方程。关键在于理解当末尾字符相等时,LCS长度可以加1;当不等时,需要从两个可能的子问题中选取最优解。通过自底向上填表,最终得到答案。