“其实之前学过一次KMP,不过后来忘了,于是又学了一遍。”
你有两个字符串,一个是a字符串,一个是b字符串。现在你的任务是需要在a字符串中找到b字符串,也就是判断b字符串是否是a字符串的字串,如果是,则输出YES,反之NO。
可以采用BP朴素模式匹配,但那样的时间复杂度最坏为O(n*m)。但如果用KMP,时间复杂度最坏为O(n+m)。
KMP第一步需要得到next数组。
在得到next数组之前,先得了解什么是公共前后缀长度。就拿121213这个字符串举例。
字符串 | 前缀 | 后缀 | 公共前后缀最长长度 |
1 | 无 | 无 | 0 |
12 | 1 | 2 | 0 |
121 | 1,12 | 21,1 | 1 |
1212 | 1,12,121 | 212,12,2 | 2 |
12121 | 1,12,121,1212 | 2121,121,21,1 | 3 |
121213 | 1,12,121,1212,12121 | 21213,1213,213,13,3 | 0 |
这样,公共前后缀最长长度就会和字符串的每个字符产生一种对应关系:
字符 | 1 | 2 | 1 | 2 | 1 | 3 |
公共前后缀最长长度 | 0 | 0 | 1 | 2 | 3 | 0 |
这个表的含义是在当前字符作为最后一个字符时,当前子串所拥有的公共前后缀最长长度。比如,字符为3时,字符串为121213,公共前后缀最长长度为0;字符为第二个1时,字符串为121,公共前后缀最长长度为1。
然后我们把这个公共前后缀最长长度数组向右移动一位,并给第一个字符的公共前后缀最长长度替换成-1,就可以得到121213这个字符串的next数组如下。
字符 | 1 | 2 | 1 | 2 | 1 | 3 |
next | -1 | 0 | 0 | 1 | 2 | 3 |
至此我们就实现了KMP的第一步得到next数组。
KMP第二步在字符串匹配时使用next数组进行回溯。
a为主串,b为模式串,任务是b是否为a的字串。当我们进行字符串匹配时,如果在b的第i个位置匹配不上,那么i就要回溯到next[i]。然后继续进行字符串匹配,反复如此,直到完全匹配。
void getNext(string t)
{
ll j = 0;
ll k = -1;
nt[j] = k;
while (j < t.length())
{
if (k == -1 || t[j] == t[k])
{
++k;
++j;
nt[j] = k;
}
else
k = nt[k];
}
}
//nt为next数组 开的全局变量
int main()
{
cin >> a;
cin >> b;
getNext(b);
//得到b的next数组
ll j = 0, i = 0;
int ans = 0;
while (j < a.length())
{
if (i == -1 || a[j] == b[i])
{
//如果字符匹配成功
j++;
i++;
}
else
i = nt[i];
//如果字符匹配不成功
//那么i就要进行回溯
if (i == b.length())
//如果字符串完全匹配
//那么ans++
//并且i回溯
//ans为a中b的个数
{
ans++;
i = nt[i];
}
}
if (ans)
cout << "YES"<< " " << ans << endl;
else
cout << "NO" << endl;
return 0;
}
next数组最好开到比原字符串数组多一个大小。比如string字符串121的length是3,那么next数组的大小就要开到4,因为在得到next数组时会得到next[3]=1,而不是只到next[2]=0。如果next只开到2,那么就可能会报越界错误。
而且后面KMP是需要用到next[3]的,在最后字符串完全匹配就需要用next[3]来进行一个回溯。
因篇幅问题不能全部显示,请点此查看更多更全内容