在线时间 3 小时 最后登录 2015-5-5 注册时间 2015-4-8 听众数 10 收听数 0 能力 0 分 体力 92 点 威望 0 点 阅读权限 20 积分 43 相册 0 日志 0 记录 0 帖子 26 主题 14 精华 0 分享 0 好友 7
升级 40%
TA的每日心情 慵懒 2015-5-5 09:46
签到天数: 10 天
[LV.3]偶尔看看II
自我介绍 撒
Shift-And/Shift-Or 算法和KMP 算法一样,也是线性时间复杂度的字符串匹配算法,运行时间上甚至要比KMP 算法快得多。而理解上比KMP 算法更容易一些。Shift-And/Shift-Or 算法设计的非常巧妙,初次接触时同样“吓了一跳”。 ' A, j: b' ~5 r2 e. D
Shift-And 与 Shift-Or 算法的原理完全一样,区别仅在于Shift-Or 对Shift-And 做了一点儿改进。我们先说Shift-And 算法。 - `. k. m- j4 V: v7 A
1 G* v/ G2 S3 q! K" }, x* [ S 表示原字符串,T 表示目标串(模式串),我们要在S 中搜索T。 & r5 N! L4 w, \/ L; ^+ }& F/ V. u
令 S[0..m-1] = abcabcabdabba, T[0..n-1] = abcabd
8 O# \: q7 |- Y/ | " |5 H' _# l% M$ t2 K0 D
1,Shift-And 算法思想
]$ r) A2 o8 |1 _ Shift-And 算法的核心思想是利用掩码D 来记录模式串的前缀匹配情况。(瞧,shift 算法的核心也是前缀匹配)。Shift 算法大量应用了位运算。
! q; {( h* N+ W- _8 y3 q D 是一个m 位的无符号整数:D[n-1, n-2, ..,1,0] (注意D 并不是一个数组,仅仅是一个整数,D[n-1] 表示其最高位bit)。 6 A. R2 X- y' _. v a. D+ N7 R- ?. `
数组索引i 控制S 串的扫描,当扫描的字符S 时,D 的第j 位D[j] = 1 当且仅当T[0..j] 是S[0..i] 的一个后缀。 ! a8 x! G! m% i4 x4 V; R
2 [" S U! i! r2 t 要使用Shift 算法,需要一个辅助表B。B 是一个字典,key 是问题域字符集中的每个字符,value 是一个n 位无符号整数,记录该字符在模式串T 的哪些位置出现。
' E/ X9 \9 U! y w4 ^# d 例如,字符c 在T[2] 处出现,那么B['c'] = 000100 (对于字符串,低位在左;对于B['c'],低位在右);同理,a 在T[0],T[3] 处出现,B['a'] = 001001.
, v# j# y1 o: x. A7 n0 ]2 S6 A+ C
3 ^+ w% }+ G" v7 B& S+ P3 J 假设当前处理到S,需要对D 进行更新。由于D[j] (0<j<n) 标识T[0..j] 是否是S[0..i] 的后缀,所以D[j]=1 当且仅当更新前的D[j-1]=1 并且S==T[j];D[0] 是边界情况,D[0]=1 当且仅当S==T[0]。 6 W6 _' H5 o& b3 I; G* l H
所以,D = (D << 1 | 1) & B[S[i] ; 2 x- A0 L4 O, P7 s
显然,当D[n-1]=1 时,表示T[0..n-1] 是S[0..i] 的后缀,此时找到一个T的完全匹配。
2 w; _) d2 r7 S1 K2 U8 ^ P8 [
; H& I6 n% }/ p# Q! g$ e; _ Z 2,Shift-And 算法实现
" D( x) g! y8 \! F2 p; X Shift-And 匹配过程代码:
. j0 Q( |- n8 D$ R ( j* I/ o/ g) K2 e
# e# I, n+ h5 d% Z$ H3 U
由于位运算在计算机中可以并行进行,每次循环的执行是常数时间的,所以上面代码段的复杂度是 O(m)。 7 Q4 \- A) ^7 n# f) a$ d* }
6 ^7 l; t2 p. p7 _( ~1 _+ d 3,辅助表 B
* T0 z) R, \5 a 上面没有提到如何得到辅助表B。很简单,只要获得模式串T 中每个字符出现的位置。
" }" m5 _5 N6 i5 B! \6 ^9 y
/ h7 R4 Y& D# }6 e, s- D3 b
. U) r: t2 h* z 显然,上述代码段的复杂度是 O(n)。Shift-And 算法的时间复杂度是O(m+n)。 $ o8 ?" Z4 J) c; T
实际上,shift 算法通常比KMP 算法的匹配速度要快,因为计算机位并行运算是非常高效的。 7 z6 c& G& f( A# F5 v" O
. u7 ~ {) _( P7 c5 t 注意:数组B 的大小是由字符集决定的,如果字符来自ASCII 码,字符的数值范围是0~127,数组大小是128 即可;否则,可能需要更大的数组B,或者自己构建字符到整数索引之间的散列关系。
7 B$ k8 D% s' ]* \" M9 _ % o/ ?7 y. \8 _
4,Shift-Or 算法
* \- l" |! R- U, D 在Shift-And 中,对掩码D 的更新:D = (D << 1 | 1) & B[S[i] ;
* p7 C4 Q& E# Z* W* | 每次更新D 都需要额外进行D 移位后与"1" 的"或"运算。这是由于我们要保证当字符S 在T[0] 处出现时,D[0] 一定要等于1,而D 向左移位后最低位是0。 3 C! q) j1 e1 X0 t7 t4 q2 m5 g
2 H9 l7 E- m7 _& e5 ^: O 如果将Shift-And 中核心的“与” 运算改为“或” 运算,可以节省这一个附加的“或1” 运算。这正是Shift-Or 所改进的地方。 $ Q8 m1 k2 Q# N+ J1 ]+ D! e9 j
Shift-Or 与Shift-And 的唯一区别在于,在Shift-Or 中,“有效位” 是通过0(而不是1)来标识。
- `8 v3 v2 ?7 x' P3 O" P5 R7 A2 D 于是求解辅助表B 和更新掩码D 都会与Shift-And 有一些区别,详见代码。 . R3 ?7 b y: {1 e7 r
, Z' T% c$ u; |" W Shift-And 完整代码: C++ 实现 Python 实现
$ Q; F- ^; W/ n Shift-Or 完整代码: C++ 实现 Python 实现 1 X1 {: ^2 T* x, f0 I! d. |: d/ y) W
% D$ S n( ]1 H; x
zan