Python实现KPM算法的原理及具体过程是什么
Admin 2022-06-23 群英技术资讯 569 次浏览
先说前缀,和后缀吧
比如有一个串:abab
则在下标为3处的(前缀和后缀都要比下标出的长度小1,此处下标为3出的长度是4)
前缀为:a,ab,aba
后缀为:b,ba,bab
简单说一下原理吧,首先k,用来存放前缀的下标,首先初始化j=0(j用来表示模式串的下标,一直去模式串的每一位与前面的进行比较,如果相等,则记录下当前位置与前面的哪个位置相同,我们这里主要是要记录相同位置的下一个位置,就是不相同的位置,从不相同的位置开始比较,就是回溯到不相同位置,所以这里在t[j]==t[k]成立的时候要j+1,为了比较下一个位置是否相同,k也要+1),模式串从0开始,k=-1,next[0]=-1第一个位置赋默认值-1;
此处串采用=“abab”
第一次循环:
判断k是否等于-1,如果等于则,j和k都+1,
此时j=1,k=0,next[1]=0,也就是第2个位置(下标1)的回溯位置还是0,因为前缀的最大长度必须小于当前位置的长度;
第二次循环:
j=1,k=0,next[1]=0;k已经不等于-1了,判断t[j]==t[k],t[1]==t[0],t[1]="b",t[0]="a",不相等
执行else:
k=next[0]=-1
第三次循环:
k==-1
j和k都+1,j=2,k=0,next[2]=0
第四次循环:
k不等于-1,判断t[2]==t[0],t[2]=“a”=t[0]=“a”,成立
j和k都+1,j=3,k=1,next[3]=1
此时next=[-1,0,0,1],next[3]=1表示在next[3]处发生不匹配时,也就是模式串下标为3时为“b”,说明前面aba都是和目标串都匹配,所以模式串不匹配位置前面的串aba一定与目标串不匹配位置前面的前3个值相等,也就是aba,所以此刻,只需要回溯到模式串的1位置,也就是模式串的b,模式串b前面是a,满足目标串的前一个a。
第五次循环:
k依旧是不等于-1,就是比较上一个位置后面的两个数再进行比较,简单的说,以此取出每一项与第一项比较,如果存在相等的就再比较下一个与第二项是否相等。
代码如下:
def GetNext(t, next): j, k = 0, -1 next[0] = -1 while j < len(t) - 1: if k == -1 or t[j] == t[k]: # 如果k==-1 或者 开始位置和结尾位置有相同的元素 j, k = j + 1, k + 1 # j和k都加1,当前位匹配,则从下一个位置开始匹配,所以k+1;j再进行取下一位判断是否也是匹配,所以也要+1 next[j] = k # 当前位置要取k项 else:#如果不相等,再把k置-1,下一次循环再进行+1操作,j这个位置再存入0,表示无匹配项 k = next[k] return next
原理和BF算法是一样的,唯独不同的是,当模式串与目标串不匹配的时候,不直接回溯模式串,而是根据模式串的next[]表,查询要回溯到的位置,直接回溯到模式串的指定位置,KMP算法的核心也就在这里,但是这种方法一般只对前缀和后缀存在相同元素时,有效果,也就是说相同部分是一样的就不再进行比较了,从相同元素的下一个位置开始比较,所以KMP算法最复杂的部分其实就是找next[]表,要找出模式串的每一个位置,是否有相同前缀,如果有则标注该相同位置,下次回溯就不用回溯到0这个位置,可以从不相同位置开始。
def KMP(s, t): next = [0] * len(t) next = GetNext(t, next) print(next) i, j = 0, 0 while i < len(s) and j < len(t): if j == -1 or s[i] == t[j]: i, j = i + 1, j + 1 else: j = next[j] if j >= len(t): return i - len(t) else: return -1
完整代码:
def GetNext(t, next): j, k = 0, -1 next[0] = -1 while j < len(t) - 1: if k == -1 or t[j] == t[k]: # 如果k==-1 或者 开始位置和结尾位置有相同的元素 j, k = j + 1, k + 1 # j和k都加1,当前位匹配,则从下一个位置开始匹配,所以k+1;j再进行取下一位判断是否也是匹配,所以也要+1 next[j] = k # 当前位置要取k项 else:#如果不相等,再把k置-1,下一次循环再进行+1操作,j这个位置再存入0,表示无匹配项 k = next[k] return next def KMP(s, t): next = [0] * len(t) next = GetNext(t, next) print(next) i, j = 0, 0 while i < len(s) and j < len(t): if j == -1 or s[i] == t[j]: i, j = i + 1, j + 1 else: j = next[j] if j >= len(t): return i - len(t) else: return -1 if __name__ == '__main__': re = KMP('asdfghjsssaaasdfaaaabababcdabd', "ababaaaababaa") print(re)
结果:
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
pytorch 用于训练,TensorRT用于推理是很多AI应用开发的标配。大家往往更加熟悉 pytorch 的算子,而不太熟悉TensorRT的算子。本文介绍了Pytorch中常用乘法的TensorRT实现,感兴趣的可以了解一下
py_compile模块提供一个函数,用于从源文件生成字节码文件,以及在将模块源文件作为脚本调用时使用的另一个函数。虽然并不经常需要,但是在安装用于共享使用的模块时,这个函数非常有用,特别是如果某些用户可能没有权限在包含源代码的目录中编写字节码缓存文件的话。源代码不多,如下>>>importpy_compile>>>dir(py_c
concat与merge函数的作用和用法是什么,一些朋友可能会遇到这方面的问题,对此在下文小编向大家来讲解一下,内容详细,易于理解,希望大家阅读完这篇能有收获哦,有需要的朋友就往下看吧!
这篇文章主要为大家介绍了python实现邮件解析的方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助<BR>
今天给大家介绍Python中的pathlib库的操作方法,pathlib 是Python内置库,pathlib库对于目录路径的操作更简洁也更贴近 Pythonic(Python代码风格的),对Python pathlib库相关知识感兴趣的朋友一起看看吧
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008