数学建模社区-数学中国

标题: 透彻理解Shift-And/Shift-Or 算法 字符串匹配/子串查找 [打印本页]

作者: 美人如花    时间: 2015-4-13 10:06
标题: 透彻理解Shift-And/Shift-Or 算法 字符串匹配/子串查找
Shift-And/Shift-Or 算法和KMP 算法一样,也是线性时间复杂度的字符串匹配算法,运行时间上甚至要比KMP 算法快得多。而理解上比KMP 算法更容易一些。Shift-And/Shift-Or 算法设计的非常巧妙,初次接触时同样“吓了一跳”。$ X1 E' v. D# N6 \3 Q4 i  G
Shift-And 与 Shift-Or 算法的原理完全一样,区别仅在于Shift-Or 对Shift-And 做了一点儿改进。我们先说Shift-And 算法。# _$ Q4 T( N% }
1 q% X7 }% ~  h* n
S 表示原字符串,T 表示目标串(模式串),我们要在S 中搜索T。2 c" Q. E( u- r' j' f  V
令 S[0..m-1] = abcabcabdabba, T[0..n-1] = abcabd7 q" Z. |/ g) W$ e6 E- ?
0 F0 K: m( x$ x. [# x; l% E( t
1,Shift-And 算法思想5 A0 q7 q/ l2 D0 F+ Y& @
Shift-And 算法的核心思想是利用掩码D 来记录模式串的前缀匹配情况。(瞧,shift 算法的核心也是前缀匹配)。Shift 算法大量应用了位运算。
0 K6 L) |$ F- l6 gD 是一个m 位的无符号整数:D[n-1, n-2, ..,1,0] (注意D 并不是一个数组,仅仅是一个整数,D[n-1] 表示其最高位bit)。( G; ^3 A1 W1 k, k5 P9 p! k
数组索引i 控制S 串的扫描,当扫描的字符S 时,D 的第j 位D[j] = 1 当且仅当T[0..j] 是S[0..i] 的一个后缀。
0 N8 i- @0 F4 H4 _) G# J! j* ^# e# L
要使用Shift 算法,需要一个辅助表B。B 是一个字典,key 是问题域字符集中的每个字符,value 是一个n 位无符号整数,记录该字符在模式串T 的哪些位置出现。- t6 X* t$ c* n7 T
例如,字符c 在T[2] 处出现,那么B['c'] = 000100 (对于字符串,低位在左;对于B['c'],低位在右);同理,a 在T[0],T[3] 处出现,B['a'] = 001001.
- q( q7 s' D  C- X, w( n. ?( V
1 B5 N. t2 u  O1 R- h# y7 H3 d假设当前处理到S,需要对D 进行更新。由于D[j] (0<j<n) 标识T[0..j] 是否是S[0..i] 的后缀,所以D[j]=1 当且仅当更新前的D[j-1]=1 并且S==T[j];D[0] 是边界情况,D[0]=1 当且仅当S==T[0]。! a9 i; s4 x- _  ~$ B$ B( C( ?
所以,D = (D << 1 | 1) & B[S[i] ;) A2 m/ E$ v( M4 F/ t5 E5 X
显然,当D[n-1]=1 时,表示T[0..n-1] 是S[0..i] 的后缀,此时找到一个T的完全匹配。2 c- l$ h/ |! \$ g& a

" l5 d6 y" ]; h$ ^# L2,Shift-And 算法实现- d+ Q+ ?; e  L6 R1 C6 p% ?+ ?
Shift-And 匹配过程代码:+ ]" ^- Q$ {+ b$ V) {; @
! E$ @+ o  U7 y& d; z) s
! f. d5 r& H6 t8 m  X
由于位运算在计算机中可以并行进行,每次循环的执行是常数时间的,所以上面代码段的复杂度是 O(m)。+ z% E/ \+ z$ E+ {$ s
% X3 A6 ~3 S; E5 N
3,辅助表 B
7 m' y+ }0 f1 j0 A上面没有提到如何得到辅助表B。很简单,只要获得模式串T 中每个字符出现的位置。; y1 O8 ?7 G5 n# g" B5 w3 X
0 x6 {, U7 K( R$ M& l5 C* }. P

9 x! W! R3 |; H8 E) {1 y显然,上述代码段的复杂度是 O(n)。Shift-And 算法的时间复杂度是O(m+n)。
6 f; A$ \9 y3 ]# V8 d% l实际上,shift 算法通常比KMP 算法的匹配速度要快,因为计算机位并行运算是非常高效的。
+ F6 A0 E* |8 g! c
+ X! E9 g! e8 n) q; r8 ~- n- Y注意:数组B 的大小是由字符集决定的,如果字符来自ASCII 码,字符的数值范围是0~127,数组大小是128 即可;否则,可能需要更大的数组B,或者自己构建字符到整数索引之间的散列关系。( G; ^, d) C+ e- S& u) n" _9 ~* `$ ]
8 U( S! w6 J+ J% N; |4 p) q
4,Shift-Or 算法
1 s+ N5 D. }3 g( q5 `在Shift-And 中,对掩码D 的更新:D = (D << 1 | 1) & B[S[i] ;4 B$ }$ u$ I# H5 A
每次更新D 都需要额外进行D 移位后与"1" 的"或"运算。这是由于我们要保证当字符S 在T[0] 处出现时,D[0] 一定要等于1,而D 向左移位后最低位是0。7 K2 |1 o5 M& N. N2 F9 q

  L$ J, \& {- c: t3 a如果将Shift-And 中核心的“与” 运算改为“或” 运算,可以节省这一个附加的“或1” 运算。这正是Shift-Or 所改进的地方。) M4 E# w- E  F& \
Shift-Or 与Shift-And 的唯一区别在于,在Shift-Or 中,“有效位” 是通过0(而不是1)来标识。
* _" f9 O6 `! R1 f4 Y于是求解辅助表B 和更新掩码D 都会与Shift-And 有一些区别,详见代码。+ m+ L+ s7 z) n( o, r
5 x8 }( V8 b1 y6 ~" A( Q
Shift-And 完整代码:C++ 实现  Python 实现
% w9 I- |+ l4 Q( |5 x9 JShift-Or 完整代码:C++ 实现  Python 实现
/ l3 u8 c* p5 f
$ m5 _) y6 W- a3 ]; I  v




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5