最长公共子序列（LCS）

字数 2922 2025-10-27 16:26:44

最长公共子序列（LCS）

题目描述
给定两个字符串 text1 和 text2，返回这两个字符串的最长公共子序列的长度。如果不存在公共子序列，返回 0。

一个字符串的 子序列 是指这样一个新字符串：它是由原字符串在不改变字符的相对顺序的情况下删除某些字符（也可以不删除任何字符）后组成的新字符串。例如，"ace" 是 "abcde" 的子序列，但 "aec" 不是。

示例
输入：text1 = "abcde", text2 = "ace"
输出：3
解释：最长公共子序列是 "ace"，它的长度为 3。

循序渐进讲解

第一步：理解问题核心
我们的目标是找到两个字符串中都出现的一个序列，这个序列在原字符串中不需要连续，但必须保持原有的先后顺序。暴力解法是枚举一个字符串的所有子序列，检查它是否也是另一个字符串的子序列，但这样时间复杂度是指数级的，不可行。

第二步：引入动态规划思路
动态规划非常适合解决这种具有重叠子问题和最优子结构的问题。我们定义一个二维数组（或称DP表）dp[i][j]，其含义是：
dp[i][j] 表示 text1 的前 i 个字符（即 text1[0..i-1]）和 text2 的前 j 个字符（即 text2[0..j-1]）的最长公共子序列的长度。

第三步：建立DP表并初始化
我们创建一个大小为 (len(text1)+1) x (len(text2)+1) 的二维数组 dp。多出来的一行一列（即 i=0 或 j=0 的行和列）表示空字符串的情况。

初始化：dp[0][j] = 0（text1是空字符串，与任何text2的子序列长度都是0）
初始化：dp[i][0] = 0（text2是空字符串，与任何text1的子序列长度都是0）

第四步：推导状态转移方程
现在我们要思考如何根据已知状态推导出 dp[i][j]。这里有两种情况：

text1[i-1] 等于 text2[j-1] (注意，因为我们的 i 和 j 是从1开始计数的，所以对应字符下标是 i-1 和 j-1)。
这意味著我们找到了一个公共字符。这个字符一定属于最长公共子序列。那么，text1[0..i-1] 和 text2[0..j-1] 的LCS长度，就等于 text1[0..i-2] 和 text2[0..j-2] 的LCS长度再加1。
公式：dp[i][j] = dp[i-1][j-1] + 1
text1[i-1] 不等于 text2[j-1]。
这意味著当前两个字符不能同时出现在公共子序列中。那么，text1[i-1] 和 text2[j-1] 就不可能同时出现在LCS中。我们需要考虑两种子情况：
- LCS可能来自于 text1[0..i-1] 和 text2[0..j-2]（即忽略 text2 的当前字符）。
- LCS也可能来自于 text1[0..i-2] 和 text2[0..j-1]（即忽略 text1 的当前字符）。
  我们应该取这两种可能中的最大值，以保证找到的是“最长”的公共子序列。
  公式：dp[i][j] = max(dp[i-1][j], dp[i][j-1])

第五步：填表过程示例
让我们用示例 text1 = "abcde", text2 = "ace" 来手动填表。
初始化的DP表如下（- 表示空字符串）：

	a	c	e
-	0	0	0
a
b
c
d
e

现在我们按行（或按列）填充：

i=1, j=1: text1[0]='a', text2[0]='a'，相等。dp[1][1] = dp[0][0] + 1 = 0+1 = 1
i=1, j=2: text1[0]='a', text2[1]='c'，不等。dp[1][2] = max(dp[0][2], dp[1][1]) = max(0, 1) = 1
i=1, j=3: text1[0]='a', text2[2]='e'，不等。dp[1][3] = max(dp[0][3], dp[1][2]) = max(0, 1) = 1

第一行填完：

	a	c	e
-	0	0	0
a	1	1	1
b
c
d
e

继续填充：

i=2, j=1: 'b' 和 'a' 不等。dp[2][1] = max(dp[1][1], dp[2][0]) = max(1, 0) = 1
i=2, j=2: 'b' 和 'c' 不等。dp[2][2] = max(dp[1][2], dp[2][1]) = max(1, 1) = 1
i=2, j=3: 'b' 和 'e' 不等。dp[2][3] = max(dp[1][3], dp[2][2]) = max(1, 1) = 1

以此类推，最终填满的DP表如下：

	a	c	e
-	0	0	0
a	1	1	1
b	1	1	1
c	1	2	2
d	1	2	2
e	1	2	3

右下角的值 dp[5][3] = 3 就是我们的答案。

第六步：算法实现（Python）
根据上述思路，我们可以写出代码。

def longestCommonSubsequence(text1: str, text2: str) -> int:
    m, n = len(text1), len(text2)
    # 创建 (m+1) x (n+1) 的DP表，初始化为0
    dp = [[0] * (n + 1) for _ in range(m + 1)]
    
    # 从1开始遍历，因为0行0列已经初始化好了
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if text1[i-1] == text2[j-1]:
                # 字符匹配，长度加1
                dp[i][j] = dp[i-1][j-1] + 1
            else:
                # 字符不匹配，取上方或左方的最大值
                dp[i][j] = max(dp[i-1][j], dp[i][j-1])
    
    # 右下角的值即为最终答案
    return dp[m][n]

第七步：复杂度分析

时间复杂度：O(m * n)，其中 m 和 n 分别是两个字符串的长度。我们需要填充一个 m x n 的DP表。
空间复杂度：O(m * n)，用于存储DP表。可以通过滚动数组优化到 O(min(m, n))。

总结
解决最长公共子序列问题的核心是定义清晰的DP状态，并推导出正确的状态转移方程。关键在于理解当末尾字符相等时，LCS长度可以加1；当不等时，需要从两个可能的子问题中选取最优解。通过自底向上填表，最终得到答案。

最长公共子序列（LCS）题目描述给定两个字符串 text1 和 text2 ，返回这两个字符串的最长公共子序列的长度。如果不存在公共子序列，返回 0。一个字符串的子序列是指这样一个新字符串：它是由原字符串在不改变字符的相对顺序的情况下删除某些字符（也可以不删除任何字符）后组成的新字符串。例如，"ace" 是 "abcde" 的子序列，但 "aec" 不是。示例输入：text1 = "abcde", text2 = "ace" 输出：3 解释：最长公共子序列是 "ace"，它的长度为 3。循序渐进讲解第一步：理解问题核心我们的目标是找到两个字符串中都出现的一个序列，这个序列在原字符串中不需要连续，但必须保持原有的先后顺序。暴力解法是枚举一个字符串的所有子序列，检查它是否也是另一个字符串的子序列，但这样时间复杂度是指数级的，不可行。第二步：引入动态规划思路动态规划非常适合解决这种具有重叠子问题和最优子结构的问题。我们定义一个二维数组（或称DP表） dp[i][j] ，其含义是： dp[i][j] 表示 text1 的前 i 个字符（即 text1[0..i-1] ）和 text2 的前 j 个字符（即 text2[0..j-1] ）的最长公共子序列的长度。第三步：建立DP表并初始化我们创建一个大小为 (len(text1)+1) x (len(text2)+1) 的二维数组 dp 。多出来的一行一列（即 i=0 或 j=0 的行和列）表示空字符串的情况。初始化： dp[0][j] = 0 （text1是空字符串，与任何text2的子序列长度都是0）初始化： dp[i][0] = 0 （text2是空字符串，与任何text1的子序列长度都是0）第四步：推导状态转移方程现在我们要思考如何根据已知状态推导出 dp[i][j] 。这里有两种情况： text1[i-1] 等于 text2[j-1] (注意，因为我们的 i 和 j 是从1开始计数的，所以对应字符下标是 i-1 和 j-1 )。这意味著我们找到了一个公共字符。这个字符一定属于最长公共子序列。那么， text1[0..i-1] 和 text2[0..j-1] 的LCS长度，就等于 text1[0..i-2] 和 text2[0..j-2] 的LCS长度再加1。公式： dp[i][j] = dp[i-1][j-1] + 1 text1[i-1] 不等于 text2[j-1] 。这意味著当前两个字符不能同时出现在公共子序列中。那么， text1[i-1] 和 text2[j-1] 就不可能同时出现在LCS中。我们需要考虑两种子情况： LCS可能来自于 text1[0..i-1] 和 text2[0..j-2] （即忽略 text2 的当前字符）。 LCS也可能来自于 text1[0..i-2] 和 text2[0..j-1] （即忽略 text1 的当前字符）。我们应该取这两种可能中的最大值，以保证找到的是“最长”的公共子序列。公式： dp[i][j] = max(dp[i-1][j], dp[i][j-1]) 第五步：填表过程示例让我们用示例 text1 = "abcde" , text2 = "ace" 来手动填表。初始化的DP表如下（ - 表示空字符串）： | | - | a | c | e | | :---- | :-: | :-: | :-: | :-: | | - | 0 | 0 | 0 | 0 | | a | 0 | | | | | b | 0 | | | | | c | 0 | | | | | d | 0 | | | | | e | 0 | | | | 现在我们按行（或按列）填充： i=1, j=1 : text1[ 0]='a', text2[ 0]='a'，相等。 dp[1][1] = dp[0][0] + 1 = 0+1 = 1 i=1, j=2 : text1[ 0]='a', text2[ 1]='c'，不等。 dp[1][2] = max(dp[0][2], dp[1][1]) = max(0, 1) = 1 i=1, j=3 : text1[ 0]='a', text2[ 2]='e'，不等。 dp[1][3] = max(dp[0][3], dp[1][2]) = max(0, 1) = 1 第一行填完： | | - | a | c | e | | :---- | :-: | :-: | :-: | :-: | | - | 0 | 0 | 0 | 0 | | a | 0 | 1 | 1 | 1 | | b | 0 | | | | | c | 0 | | | | | d | 0 | | | | | e | 0 | | | | 继续填充： i=2, j=1 : 'b' 和 'a' 不等。 dp[2][1] = max(dp[1][1], dp[2][0]) = max(1, 0) = 1 i=2, j=2 : 'b' 和 'c' 不等。 dp[2][2] = max(dp[1][2], dp[2][1]) = max(1, 1) = 1 i=2, j=3 : 'b' 和 'e' 不等。 dp[2][3] = max(dp[1][3], dp[2][2]) = max(1, 1) = 1 以此类推，最终填满的DP表如下： | | - | a | c | e | | :---- | :-: | :-: | :-: | :-: | | - | 0 | 0 | 0 | 0 | | a | 0 | 1 | 1 | 1 | | b | 0 | 1 | 1 | 1 | | c | 0 | 1 | 2 | 2 | | d | 0 | 1 | 2 | 2 | | e | 0 | 1 | 2 | 3 | 右下角的值 dp[5][3] = 3 就是我们的答案。第六步：算法实现（Python）根据上述思路，我们可以写出代码。第七步：复杂度分析时间复杂度：O(m * n)，其中 m 和 n 分别是两个字符串的长度。我们需要填充一个 m x n 的DP表。空间复杂度：O(m * n)，用于存储DP表。可以通过滚动数组优化到 O(min(m, n))。总结解决最长公共子序列问题的核心是定义清晰的DP状态，并推导出正确的状态转移方程。关键在于理解当末尾字符相等时，LCS长度可以加1；当不等时，需要从两个可能的子问题中选取最优解。通过自底向上填表，最终得到答案。