查看: 3445|回复: 0

子串查找

字体大小: 正常放大

14 主题	10 听众	43 积分

升级 40%

TA的每日心情

	慵懒 2015-5-5 09:46

签到天数: 10 天

[LV.3]偶尔看看II

自我介绍: 撒

电梯直达

1^#

发表于 2015-4-13 10:06 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

Shift-And/Shift-Or 算法和KMP 算法一样，也是线性时间复杂度的字符串匹配算法，运行时间上甚至要比KMP 算法快得多。而理解上比KMP 算法更容易一些。Shift-And/Shift-Or 算法设计的非常巧妙，初次接触时同样“吓了一跳”。
Shift-And 与 Shift-Or 算法的原理完全一样，区别仅在于Shift-Or 对Shift-And 做了一点儿改进。我们先说Shift-And 算法。

S 表示原字符串，T 表示目标串（模式串），我们要在S 中搜索T。
令 S[0..m-1] = abcabcabdabba, T[0..n-1] = abcabd

1，Shift-And 算法思想
Shift-And 算法的核心思想是利用掩码D 来记录模式串的前缀匹配情况。（瞧，shift 算法的核心也是前缀匹配）。Shift 算法大量应用了位运算。
D 是一个m 位的无符号整数：D[n-1, n-2, ..,1,0] （注意D 并不是一个数组，仅仅是一个整数，D[n-1] 表示其最高位bit）。
数组索引i 控制S 串的扫描，当扫描的字符S 时，D 的第j 位D[j] = 1 当且仅当T[0..j] 是S[0..i] 的一个后缀。# m- X' T* I" n7 B  ^, W, P

- A1 i2 H4 b' s- f- ?要使用Shift 算法，需要一个辅助表B。B 是一个字典，key 是问题域字符集中的每个字符，value 是一个n 位无符号整数，记录该字符在模式串T 的哪些位置出现。  P- A* w; c8 o5 ^7 B" ?" _
例如，字符c 在T[2] 处出现，那么B['c'] = 000100 （对于字符串，低位在左；对于B['c']，低位在右）；同理，a 在T[0],T[3] 处出现，B['a'] = 001001.1 n3 z2 n; O" a, Y0 t
% L7 k6 n. ^. {. A8 c/ K8 c$ |, t
假设当前处理到S，需要对D 进行更新。由于D[j] (0<j<n) 标识T[0..j] 是否是S[0..i] 的后缀，所以D[j]=1 当且仅当更新前的D[j-1]=1 并且S==T[j]；D[0] 是边界情况，D[0]=1 当且仅当S==T[0]。
! w  \9 n' L: |/ R, G所以，D = (D << 1 | 1) & B[S[i］ ;
- c( G, n! J" P% n/ \5 f3 n显然，当D[n-1]=1 时，表示T[0..n-1] 是S[0..i] 的后缀，此时找到一个T的完全匹配。6 t5 Z8 K, Y& }  j9 p6 o
) U$ j5 t0 h# \3 F# c# m
2，Shift-And 算法实现
( q  O8 k7 x' _7 IShift-And 匹配过程代码：2 `$ D& a* z' ~' Q8 t

$ S' u) ~4 A: U$ L  I7 m) e

0 Y# @0 t  q5 p% w由于位运算在计算机中可以并行进行，每次循环的执行是常数时间的，所以上面代码段的复杂度是 O(m)。
! V: T& |. v9 _1 ?9 w6 C, `7 g& l5 y
) @9 d' O2 t9 w/ H7 q' y3，辅助表 B
5 c* A6 Z' J- t6 G; H上面没有提到如何得到辅助表B。很简单，只要获得模式串T 中每个字符出现的位置。
) ]9 [2 r: c* Y- V
+ A! r+ ~" V, ?& j) f$ ~: K) C

  f( u/ L% }6 Y显然，上述代码段的复杂度是 O(n)。Shift-And 算法的时间复杂度是O(m+n)。3 G3 `+ m# K+ ~% Y" V2 ]
实际上，shift 算法通常比KMP 算法的匹配速度要快，因为计算机位并行运算是非常高效的。  d% V2 C" \7 E% l7 g, j1 {
* }- J1 W* n2 V
注意：数组B 的大小是由字符集决定的，如果字符来自ASCII 码，字符的数值范围是0~127，数组大小是128 即可；否则，可能需要更大的数组B，或者自己构建字符到整数索引之间的散列关系。* N2 c6 i& ~2 Y3 l9 e* `
( e2 Q' [6 m: L- A! K
4，Shift-Or 算法
6 T! y' i2 {# U. {) [& e! f在Shift-And 中，对掩码D 的更新：D = (D << 1 | 1) & B[S[i］ ;* F9 r: d$ w4 s- T: C- v
每次更新D 都需要额外进行D 移位后与"1" 的"或"运算。这是由于我们要保证当字符S 在T[0] 处出现时，D[0] 一定要等于1，而D 向左移位后最低位是0。+ p0 \7 e) K) u5 |, m4 G
# x$ a0 C) g7 K* A
如果将Shift-And 中核心的“与” 运算改为“或” 运算，可以节省这一个附加的“或1” 运算。这正是Shift-Or 所改进的地方。
/ ^  Q" K# u# J5 G$ a8 H. e8 Y# ^: cShift-Or 与Shift-And 的唯一区别在于，在Shift-Or 中，“有效位” 是通过0（而不是1）来标识。
; U9 Q8 ?' e- |# p. w0 ?于是求解辅助表B 和更新掩码D 都会与Shift-And 有一些区别，详见代码。
7 ]0 t' q7 P6 a$ W
+ X' s& b, c; P8 @Shift-And 完整代码：C++ 实现  Python 实现9 t9 M6 ^0 g4 f9 N3 @& O
Shift-Or 完整代码：C++ 实现  Python 实现( V! S6 L/ p, m
! C* I7 M3 v  f9 i9 z9 f# k