- 在线时间
- 3 小时
- 最后登录
- 2015-5-5
- 注册时间
- 2015-4-8
- 听众数
- 10
- 收听数
- 0
- 能力
- 0 分
- 体力
- 92 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 43
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 26
- 主题
- 14
- 精华
- 0
- 分享
- 0
- 好友
- 7
升级   40% TA的每日心情 | 慵懒 2015-5-5 09:46 |
|---|
签到天数: 10 天 [LV.3]偶尔看看II
- 自我介绍
- 撒
 |
Shift-And/Shift-Or 算法和KMP 算法一样,也是线性时间复杂度的字符串匹配算法,运行时间上甚至要比KMP 算法快得多。而理解上比KMP 算法更容易一些。Shift-And/Shift-Or 算法设计的非常巧妙,初次接触时同样“吓了一跳”。
) R1 m2 D( z) L2 U# x) ]) e' iShift-And 与 Shift-Or 算法的原理完全一样,区别仅在于Shift-Or 对Shift-And 做了一点儿改进。我们先说Shift-And 算法。
0 A& ~. u) k. d; |- |0 Y1 h/ a; r3 g6 G" ^7 N( u
S 表示原字符串,T 表示目标串(模式串),我们要在S 中搜索T。, \0 ]: s! e: z* q8 p8 C
令 S[0..m-1] = abcabcabdabba, T[0..n-1] = abcabd( n. D1 ?" u# }) Y+ c1 i
; x- _$ H- L" k6 ]3 s5 r ^1,Shift-And 算法思想4 d/ a6 W/ q1 e. ~! J, b4 i
Shift-And 算法的核心思想是利用掩码D 来记录模式串的前缀匹配情况。(瞧,shift 算法的核心也是前缀匹配)。Shift 算法大量应用了位运算。3 I; r( k3 Z: M; ~$ S# o$ g
D 是一个m 位的无符号整数:D[n-1, n-2, ..,1,0] (注意D 并不是一个数组,仅仅是一个整数,D[n-1] 表示其最高位bit)。
: \& Y1 i6 x8 ?/ z' e4 q+ `" M. c7 ?数组索引i 控制S 串的扫描,当扫描的字符S 时,D 的第j 位D[j] = 1 当且仅当T[0..j] 是S[0..i] 的一个后缀。7 q7 p' L# B& v. @0 J9 Q
* K. ^# A. D) x4 ~' G$ h5 j7 a2 O
要使用Shift 算法,需要一个辅助表B。B 是一个字典,key 是问题域字符集中的每个字符,value 是一个n 位无符号整数,记录该字符在模式串T 的哪些位置出现。
+ j4 m" n. v$ q, v: j. S例如,字符c 在T[2] 处出现,那么B['c'] = 000100 (对于字符串,低位在左;对于B['c'],低位在右);同理,a 在T[0],T[3] 处出现,B['a'] = 001001.
0 G7 u) c& X9 x9 F9 I- x% _6 S" l% U8 i) v
假设当前处理到S,需要对D 进行更新。由于D[j] (0<j<n) 标识T[0..j] 是否是S[0..i] 的后缀,所以D[j]=1 当且仅当更新前的D[j-1]=1 并且S==T[j];D[0] 是边界情况,D[0]=1 当且仅当S==T[0]。
) e: U8 h9 Q1 C4 w4 g/ C8 A所以,D = (D << 1 | 1) & B[S[i] ;& t& T! v5 e! c* g8 Q2 P
显然,当D[n-1]=1 时,表示T[0..n-1] 是S[0..i] 的后缀,此时找到一个T的完全匹配。
1 t) ~2 E5 R7 t, Y
: G3 \# r1 ~) P3 m+ ]2,Shift-And 算法实现7 w. U% x. j! \3 p1 j+ a
Shift-And 匹配过程代码:
8 U2 K3 |9 u4 `! T6 y7 d# ?4 K6 |+ W. L5 a7 U& g- k$ i4 }
: P S }) A2 N/ T由于位运算在计算机中可以并行进行,每次循环的执行是常数时间的,所以上面代码段的复杂度是 O(m)。
) b& K/ ^0 M$ r* i/ s; j
, k* P; a, P8 v8 _ s: T& ~+ f' t3,辅助表 B6 Q/ U1 U; w0 r3 x) n% E4 }
上面没有提到如何得到辅助表B。很简单,只要获得模式串T 中每个字符出现的位置。) L7 s; Y' W* @- |* ]7 \
( Z4 H3 A& h( Z7 c5 ~9 J2 q3 u2 d* K; _; L# X' k7 j4 x
显然,上述代码段的复杂度是 O(n)。Shift-And 算法的时间复杂度是O(m+n)。
- z0 p3 h& p4 z$ x6 V实际上,shift 算法通常比KMP 算法的匹配速度要快,因为计算机位并行运算是非常高效的。# \7 m0 w2 H1 S$ g# C) S
" ?: ~/ |( J O1 U4 Y1 L$ x- ?注意:数组B 的大小是由字符集决定的,如果字符来自ASCII 码,字符的数值范围是0~127,数组大小是128 即可;否则,可能需要更大的数组B,或者自己构建字符到整数索引之间的散列关系。
, W, P7 O1 h! j# G- S/ C0 m4 v$ M" ~0 y* c/ _% {' R
4,Shift-Or 算法; Y) J, C1 f. g* b/ b: V W. G
在Shift-And 中,对掩码D 的更新:D = (D << 1 | 1) & B[S[i] ;
3 s9 c- u h5 W4 a' Y7 N; R每次更新D 都需要额外进行D 移位后与"1" 的"或"运算。这是由于我们要保证当字符S 在T[0] 处出现时,D[0] 一定要等于1,而D 向左移位后最低位是0。
' e+ Q7 g" n) @4 }8 ?# @) H
* Q, a3 E) u- @4 K$ s4 p# V如果将Shift-And 中核心的“与” 运算改为“或” 运算,可以节省这一个附加的“或1” 运算。这正是Shift-Or 所改进的地方。
% D6 h; A0 V# f+ u2 c$ EShift-Or 与Shift-And 的唯一区别在于,在Shift-Or 中,“有效位” 是通过0(而不是1)来标识。& w' d# R$ _2 q) O( _$ _' @2 `; Z% M
于是求解辅助表B 和更新掩码D 都会与Shift-And 有一些区别,详见代码。% R0 B8 {% `; y+ X# A4 w. f9 w+ s
, R6 [# O$ p# ^( C8 l e8 u% ^Shift-And 完整代码:C++ 实现 Python 实现; ~4 w1 S, k1 F) `0 o
Shift-Or 完整代码:C++ 实现 Python 实现
8 n1 q; e( X, v) i: S
1 E" D( d9 t' w4 n |
zan
|