最长公共子序列

0人回答

73人浏览

0人赞

发布时间：2025-05-01 11:17:35

188****3100

2025-05-01 11:17:35

刚开始学的时候，盯着那串定义，满脑子问号。两个序列X和Y，怎么就找出个Z来？那会儿，我甚至想过暴力穷举，把X的所有子序列都拎出来，再看看Y里哪个能匹配上，而且最长。结果呢？想多了。那复杂度，指数爆炸啊，稍微长点儿的序列，我的老破电脑估计直接冒烟。此路不通。

然后就撞上了动态规划。天哪，动态规划！这词儿本身就带着一股子学院派的威严和、嗯，劝退感。但最长公共子序列，它跟动态规划简直是绑定销售，一说LCS，脑子里立马蹦出DP那套框架。为什么？因为它满足动态规划最爱的两个条件：最优子结构和重叠子问题。

最优子结构，说白了就是大问题的最优解，可以从它的小问题最优解推出来。找两个序列的最长公共子序列，你只需要知道它们各自短一点儿的前缀的最长公共子序列是啥，就能决定当前这一步该咋走。你看，就像搭乐高，你把每一小块搭好了，最后自然拼出个大模型。

至于重叠子问题，那就更明显了。你在算不同长度前缀的LCS时，会发现，同样的短前缀组合会被反复问到。比如算X前5个字符跟Y前6个字符的LCS，可能需要用到X前4个跟Y前6个的，也可能需要X前5个跟Y前5个的。而算X前4个跟Y前6个的LCS时，又会用到X前4个跟Y前5个的，等等。如果每次都从头算，那不是傻吗？把算过的结果存起来，下次直接查表，岂不美哉？这就是备忘录的思想，动态规划的核心之一。

所以，解决LCS的标准姿势，就是祭出那张二维数组，或者叫DP表。想象一下，一个表格，行代表序列X的前缀，列代表序列Y的前缀。表格里的每一个格子`dp[i][j]`，存的就是X的前i个字符和Y的前j个字符的最长公共子序列的长度。

填充这张表的过程，就像是在地图上探险，每一步都得遵循规则。这个规则，就是那个传说中的状态转移方程。它其实逻辑挺朴素的：

1. 如果X的第i个字符和Y的第j个字符相等（`X[i] == Y[j]`），恭喜你！找到了一个共同的字符。这时候，`dp[i][j]`的值就等于它们各自前一个字符匹配的结果再加1。就像两个人在那个雨天去了同一个咖啡馆，这条公共轨迹的长度，就是他们去咖啡馆之前那段轨迹的长度，再加上去咖啡馆这一站。所以，`dp[i][j] = dp[i-1][j-1] + 1`。这是最理想的情况，公共序列长度增加了。

2. 如果X的第i个字符和Y的第j个字符不相等（`X[i] != Y[j]`），那就有点小遗憾了。这个字符没法同时出现在当前的公共子序列里。那怎么办？我们只能“放弃”其中一个字符，去看看剩下部分的最长公共子序列是多长。是放弃X的第i个字符（看X前i-1个和Y前j个的LCS），还是放弃Y的第j个字符（看X前i个和Y前j-1个的LCS）？哪个能给我们带来更长的公共序列，我们就选哪个。所以，`dp[i][j] = max(dp[i-1][j], dp[i][j-1])`。这是个取舍的过程，公共序列的长度不会增加，只能保持或者取两者中较大的那个。

就是这两条规则，填满了整个二维数组。从左上角的`dp[0][0]`（通常初始化为0，因为空序列的LCS长度是0）开始，一行一行、一列一列地填下去。填到右下角那个格子`dp[m][n]`（m是X的长度，n是Y的长度），里头的数字，就是最终的答案——最长公共子序列的长度。

整个过程，脑子里真能浮现一个画面：那个表格，像一个正在生长的网格，每个数字都是前面计算结果“生”出来的，承载着所有历史决策的痕迹。每填一个格子，就像是在两个序列的匹配之路上迈出一步，每一步都朝着那个“最长”的目标前进，小心翼翼地权衡得失。

光知道长度还不够啊，有时候我们还想知道具体是哪个子序列。这就需要回溯了。从二维数组的右下角开始，沿着我们刚才填表时做出的选择路径，一步步往回走。如果当前格子的值`dp[i][j]`等于`dp[i-1][j-1] + 1`，那说明X的第i个字符和Y的第j个字符是匹配的，它们属于最长公共子序列，我们就把这个字符收起来，然后跳到`dp[i-1][j-1]`。如果不是，那就看`dp[i][j]`是等于`dp[i-1][j]`还是`dp[i][j-1]`，往值相等或者符合转移逻辑的方向跳，但不收集字符。比如如果`dp[i][j] == dp[i-1][j]`，说明当前字符不匹配时，是通过“放弃”X的第i个字符来实现的，我们就跳到`dp[i-1][j]`。这样逆着路径走，直到回到左上角，收集起来的字符串反转一下，就是一条最长公共子序列。可能有不止一条这样的序列，但它们长度都是一样的。

在我看来，LCS不仅仅是一个算法题。它是一种思维模式，一种在看似无序或不完全匹配的现象中，寻找潜在一致性和最长关联路径的能力。改文档的diff工具，它工作的底层逻辑就是LCS变种；生物学家比对DNA序列，找进化上的共同点，那也是LCS的舞台；甚至两个人在交流，你捕捉到的最能引起共鸣、顺序又不乱的那串关键词或观点，是不是也能看成一种“心理LCS”？

它教会我，面对一个复杂问题，别急着莽上去，先看看能不能把它拆成更小的、相互关联的子问题。这些子问题有没有重复？如果有，那动态规划，那张二维数组，那个状态转移方程，就是你的武器。虽然过程可能有点枯燥，填充表格像极了按部就班的生活，但最终得到的那个数字，那条回溯出来的序列，却蕴含着一种穿越差异找到共同的、最优的美感。它不是最直白的子串，而是隐藏在深处的、需要一番功夫才能发掘的，最长的那条“暗线”。想想都觉得，嗯，挺酷的。