QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3364|回复: 0
打印 上一主题 下一主题

[其他资源] 透彻理解Shift-And/Shift-Or 算法 字符串匹配/子串查找

[复制链接]
字体大小: 正常 放大

14

主题

10

听众

43

积分

升级  40%

  • TA的每日心情
    慵懒
    2015-5-5 09:46
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    自我介绍
    跳转到指定楼层
    1#
    发表于 2015-4-13 10:06 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    Shift-And/Shift-Or 算法和KMP 算法一样,也是线性时间复杂度的字符串匹配算法,运行时间上甚至要比KMP 算法快得多。而理解上比KMP 算法更容易一些。Shift-And/Shift-Or 算法设计的非常巧妙,初次接触时同样“吓了一跳”。
    / P2 p% F9 r6 C/ n: {' jShift-And 与 Shift-Or 算法的原理完全一样,区别仅在于Shift-Or 对Shift-And 做了一点儿改进。我们先说Shift-And 算法。. D* a- d6 {% V( h; b. T
    2 G5 l. n8 \3 |: G" `  ~
    S 表示原字符串,T 表示目标串(模式串),我们要在S 中搜索T。
    ) q- P/ F. ?; L& L; S令 S[0..m-1] = abcabcabdabba, T[0..n-1] = abcabd8 v# Y( U: u& u. G2 [1 e1 v7 e" ~
      J# G9 x( q: a# y$ G3 d
    1,Shift-And 算法思想
    . U& {; x0 a  W6 bShift-And 算法的核心思想是利用掩码D 来记录模式串的前缀匹配情况。(瞧,shift 算法的核心也是前缀匹配)。Shift 算法大量应用了位运算。
    & [% a- U! O$ {* n+ h5 GD 是一个m 位的无符号整数:D[n-1, n-2, ..,1,0] (注意D 并不是一个数组,仅仅是一个整数,D[n-1] 表示其最高位bit)。6 p. v4 L& {, o) w+ H
    数组索引i 控制S 串的扫描,当扫描的字符S 时,D 的第j 位D[j] = 1 当且仅当T[0..j] 是S[0..i] 的一个后缀。! h, p1 T, j  W9 l7 T. [3 @

    3 w) G/ X) s: S8 f5 w0 j要使用Shift 算法,需要一个辅助表B。B 是一个字典,key 是问题域字符集中的每个字符,value 是一个n 位无符号整数,记录该字符在模式串T 的哪些位置出现。" u$ K/ _% {* O$ K. ^
    例如,字符c 在T[2] 处出现,那么B['c'] = 000100 (对于字符串,低位在左;对于B['c'],低位在右);同理,a 在T[0],T[3] 处出现,B['a'] = 001001.; S8 g( S3 Z6 r& c0 j) k
    / ]7 A! j% X2 z  n. E0 z. l' \' ]
    假设当前处理到S,需要对D 进行更新。由于D[j] (0<j<n) 标识T[0..j] 是否是S[0..i] 的后缀,所以D[j]=1 当且仅当更新前的D[j-1]=1 并且S==T[j];D[0] 是边界情况,D[0]=1 当且仅当S==T[0]。
    - @( Y# a/ k, l2 ~8 x所以,D = (D << 1 | 1) & B[S[i] ;% `, g( P# Z. h
    显然,当D[n-1]=1 时,表示T[0..n-1] 是S[0..i] 的后缀,此时找到一个T的完全匹配。  K  X- u  i$ g9 [& d

    ! I$ v1 S9 D4 l2,Shift-And 算法实现
    / ?0 i" s/ a* mShift-And 匹配过程代码:( n, t. g4 ]. S) e
    5 [5 ?* o+ d+ [
    ; j( l* x& a: k
    由于位运算在计算机中可以并行进行,每次循环的执行是常数时间的,所以上面代码段的复杂度是 O(m)。& z1 x' v& p$ w1 k2 o2 @# T

    $ ~9 W5 [; U0 R- X4 O. _3,辅助表 B3 y% O1 B0 d# \. y9 k0 v
    上面没有提到如何得到辅助表B。很简单,只要获得模式串T 中每个字符出现的位置。# C  F: c3 O/ F- p) P) G3 }

    ) X4 p1 |/ p6 D; e  y0 M& E9 m% z6 A! U2 J. {' h% Z6 A
    显然,上述代码段的复杂度是 O(n)。Shift-And 算法的时间复杂度是O(m+n)。( k; j, `) w  H; t3 s
    实际上,shift 算法通常比KMP 算法的匹配速度要快,因为计算机位并行运算是非常高效的。
    ! s/ ?' a: I0 P7 r5 v  g( }2 d
    ) O; B% X4 S& k% @注意:数组B 的大小是由字符集决定的,如果字符来自ASCII 码,字符的数值范围是0~127,数组大小是128 即可;否则,可能需要更大的数组B,或者自己构建字符到整数索引之间的散列关系。
    # o6 ]- y6 w/ L% ?' D8 `) n6 u$ I# K' t1 U7 n+ ?
    4,Shift-Or 算法9 F4 C$ r; J0 n3 T! ?
    在Shift-And 中,对掩码D 的更新:D = (D << 1 | 1) & B[S[i] ;
    7 v# n( g3 U7 c6 G; g每次更新D 都需要额外进行D 移位后与"1" 的"或"运算。这是由于我们要保证当字符S 在T[0] 处出现时,D[0] 一定要等于1,而D 向左移位后最低位是0。8 b+ u8 r# F, S; C5 ?
    5 C; E, u6 ], E* F% ?2 N; ~
    如果将Shift-And 中核心的“与” 运算改为“或” 运算,可以节省这一个附加的“或1” 运算。这正是Shift-Or 所改进的地方。& m( I* `/ C' V1 `' Y# D
    Shift-Or 与Shift-And 的唯一区别在于,在Shift-Or 中,“有效位” 是通过0(而不是1)来标识。8 M3 c5 }8 G1 d; l# M$ m
    于是求解辅助表B 和更新掩码D 都会与Shift-And 有一些区别,详见代码。
    ! \0 V7 F& \' o* L$ h4 o9 [( K. h
    Shift-And 完整代码:C++ 实现  Python 实现7 s9 ~) q" w2 P/ A9 N+ _8 ?  n
    Shift-Or 完整代码:C++ 实现  Python 实现
    * J9 m  p$ n5 r- k" Y6 P
    # p; K0 q$ v3 y
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-14 02:39 , Processed in 0.394194 second(s), 54 queries .

    回顶部