- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 558544 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 172936
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 18
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
" L# L9 v3 c, ?1 c) j1 G4 o# d o. [
Python爬虫 正则表达式应用详解
8 F* k! W5 ^: \4 {$ e# q; U
4 a E" Z- _! ]2 v' z学习Python爬虫过程中的心得体会以及知识点的整理,方便我自己查找,也希望可以和大家一起交流。
* g5 [" o: I5 l, m4 y- R/ }' {6 `, r ?6 h
—— 正则表达式应用详解 ——; z, j* [6 h1 Z3 w5 C' r( ?+ K
" X' \5 Q$ \2 o. e! w' p O文章目录
4 A7 q( O6 ^/ x& K0 I6 l0 y: X9 W. U( M! v+ h$ p. o t' V
Python爬虫(二十一)6 a; Q) O: m9 K/ O* b1 ]# r
—— 正则表达式应用详解 ——" Z- _' z5 K5 _( R( m0 M; p
1. 简介4 H; a4 E) T8 b0 s
2. 语法+ c4 a4 C t3 R% u
3. 部分元字符应用详解
l- s0 j( E- B! s/ U: y F# b^
) w& a" ?7 w" x$
$ ^- w+ l) [: L\A7 ?( I' C# m" `! h3 j. ~, g3 @2 \
\b' g( v( U; c8 G: i; q
\B
/ l4 R9 T) U8 \4 p' n P3. 正则表达式实例3 |7 g" g; o5 ?7 @
相关文章:" O* A$ E) U# g
1.Python的Re库应用详解(正则表达式的库)
2 g1 }6 V6 [- b2.Python的Re库与正则表达式的细节解析(正则表达式的库)/ ^- y( `* L0 V4 c ~
/ z' H8 J$ \( |+ Q) E$ Q
1. 简介4 p4 ^7 x6 ~; v! P/ M" K2 h& O0 R
8 @2 B& f% q8 H
正则表达式:regular expression,也称regex,简称 RE8 L9 K* M3 l: K, T5 \ i6 C
4 o2 {0 y& j$ `6 L
正则表达式模式被编译成一系列的字节码,然后由一个 C 语言写的匹配引擎所执行。
, Z( n& ^/ M3 a+ {; F0 i5 y9 H( _- V. S$ c
正则表达式是用来简洁表达一组字符串的表达式
/ X# T. a9 W9 G( n) z* y( D) z9 s! n. z, z
通用的字符串表达框架
b- T) B* t& u2 F* @, @4 C' q
, F3 b+ k5 e$ a. E7 _( K+ Y简洁表达一组字符串的表达式
3 V# V o6 U2 G, `# ~( y
: R, l0 L5 n. X3 J& g" I针对字符串表达“简洁”和“特征”思想的工具
. [! R8 k7 `- v
^" t7 r& H" D# b判断某字符串的特征归属
. {% S- I5 M" J( d1 Q. O5 H$ i1 W z* v8 H$ \& }) u* }
正则表达式在文本处理中十分常用
. l. T/ L+ N& P6 A7 Y Q& n
5 _7 P0 Q* Y2 v+ b4 }; T4 _) \- ]0 C表达文本类型的特征(病毒、入侵等)
3 }, C3 D6 k' {' W- W- g! _5 w W: }5 k% d$ I* n
同时查找或替换一组字符串
4 O; L$ ?1 G7 D. u4 Q$ }/ X* h, r/ y) |; }- s
匹配字符串的全部或部分
% |( X* b0 ^# y' K! k1 B: R- |( L( w4 y& C' j+ Y
正则表达式的使用5 J2 u9 [2 }- I% T
, P0 S3 Y( k* p" w/ t% K编译:将符合正则表达式语法的字符串转换成正则式表达特征# W6 U8 s# \+ s% V/ ^
4 Z ~- q( Z- q![]()
+ }; M8 O( p1 C5 p9 u* s2. 语法
! Y A6 e* ]% y! i/ Y4 F+ _- P/ P; d7 a: e* B. j' L u: T7 ?
正则表达式语法由字符和操作符构成( r# T7 ?8 C0 Z- }# d
/ m1 R1 [) G2 O% D6 l% B4 w有一些符号不能匹配自身,它们定义了字符类、子组匹配和模式重复次数等功能,被称为元字符 (metacharacter)。
4 I( c9 l9 S; R元字符包括:. ^ $ * + ? { } [ ] \ | ( )" m: W+ \( @4 l) e
正则表达式的常用操作符, L: a# y+ [8 f) C* b+ ^
在反斜杠后边紧跟着一个元字符,那么元字符的“特殊功能”也不会被触发
& p4 K: n. d3 H, l/ Z! H操作符 说明 实例
9 J% A( [! D( Z& d& s. 表示任何单个字符(除换行符) 【注1】 ! J2 x" c2 b7 h m/ i
[ ] 字符集,对单个字符给出取值范围,元字符在方括号中不会触发功能 [abc$]表示a、b、c、$,[a--z]表示a到z单个字符
) T; u7 |! O2 F* J+ O" l' |# [[^ ] 非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符+ ~8 h: L9 ]1 I7 s, D3 v
* 前一个字符0次或无限次扩展 【注2】 abc* 表示 ab、abc、abcc、abccc等
7 E$ u. u3 l% o9 b. @9 A+ 前一个字符1次或无限次扩展 abc+ 表示 abc、abcc、abccc等' i$ L% }, |/ \" ]$ q. z. W2 K
? 前一个字符0次或1次扩展 abc?表示 ab、abc8 L: S) O7 y, Z' R
| 左右表达式任意一个 【注3】 |abc|def 表示 abc、def
1 d& g9 s, J7 W' A$ `{m} 扩展前一个字符m次 ab{2}c 表示 abbc
6 N9 K% e/ d* R6 t' t{m,n} 扩展前一个字符m至n次(含n) 【注4】 ab{1,2}c 表示 abc、abbc
7 h+ e/ ^8 I! _9 O" s^ 匹配字符串开头 ^abc 表示abc且在一个字符串的开头
5 b0 T) V, y" [$ 匹配字符串结尾 abc$ 表示abc且在一个字符串的结尾% ?! ]2 [8 f% j" X* D, k- E
( ) 分组标记,内部只能使用 | 操作符 (abc) 表示abc,(abc|def) 表示 abc、def
& H% T. E. a/ A' N1 ^" _\ 后边跟元字符去除特殊功能,跟普通字符实现特殊功能,如需消除反斜杠的特殊功能只需在前面再加一个反斜杠\\ \d \w \u
8 T, H F7 {- `# F\d 匹配十进制数字,等价于[0--9] . E) w9 M( O1 P- B" s+ X& Q
\D 与 \d 相反,匹配非十进制数字的字符,相当于 [^0-9] % f+ Y8 Q7 R) a/ t( r
\s 匹配空白字符(包含空格、换行符、制表符等),等价于 [ \t\n\r\f\v] ) @7 d+ m" P# J1 o
\S 与 \s 相反,匹配非空白字符,等价于 [^ \t\n\r\f\v] % f# ^0 X# R4 \3 j n; H; Q
\w 单词字符 【注5】 ,等价于[A--Z,a--z,0--9]
+ J1 U* I5 O& [- ?; ^9 \7 n* d0 A\W 于 \w 相反 ' ~+ S- [1 A2 Z; y" K
\b 匹配单词的开始或结束 ! `$ J' Y' z% d5 ^! j1 \
\B 与 \b 相反
2 s8 Y; \; j2 Z6 a\Z 只匹配字符串的结束位置。 # q" h- x b4 E
【注1】:如果设置了 re.DOTALL 标志,. 将匹配包括换行符在内的任何字符。
- ~6 n( Z; P1 m+ F+ E/ ?- Y- G9 [' O( _
【注2】:由于受到 C 语言的 int 类型大小的内部限制,正则表达式引擎会限制字符重复个数不超过 20 亿个;
- _. f/ ]' f1 Q8 ?, d
2 m; z% W4 q) k2 v; m# Y: [! ?【注3】:为了能够更加合理的工作,| 的优先级非常低。例如 banana|orange 应该匹配banana 或 orange,而不是匹配 banan,然后一个 ‘a’ 或 ‘o’。同样,我们使用 \| 来匹配 |字符本身;或者包含在一个字符类中,像这样 [|]。
: d% [6 O9 |9 m! s _9 l3 G+ ^
- [$ w. U, K0 {! w7 x2 L【注4】:可以省略 m 或者 n,引擎会假定一个合理的值代替。省略 m,将被解释为下限 0;省略 n 则会被解释为无穷大(事实上是上边我们提到的 20 亿)。% h9 Z7 x' F2 V
# Q3 p/ M# e* V3 {2 I1 v& W【注5】:\w 匹配任何字符。如果正则表达式以字节的形式表示,这相当于字符类 [a-zA-Z0-9_];如果正则表达式是一个字符串,\w 会匹配所有 Unicode 数据库(unicodedata 模块提供)中标记为字母的字符。你可以在编译正则表达式的时候,通过提供 re.ASCII 表示进一步限制 \w 的定义。
' A/ O0 t3 E9 i+ _' e l+ F' Q4 P# G; C$ {4 n/ w# ~4 Z: d
3. 部分元字符应用详解
! H! } s/ R$ Y# O$ p( i! c
' O9 y5 k( i# U y( e+ @4 ^3 w4 ^^/ l. C+ H, T8 e& H5 G2 M' C
/ a1 A; c# ^" }- S9 Q% O' u0 \
匹配字符串的起始位置。如果设置了 MULTILINE 标志,就会变成匹配每一行的起始位置。在 MULTILINE 中,每当遇到换行符就会立刻进行匹配。) h3 \5 o: b/ j2 Y, O% {6 t+ F# L
' c! o5 D H" x6 S9 X v. r举个例子,如果你只希望匹配位于字符串开头的单词 From,那么你的正则表达式可以写为 ^From:
3 |. W* N3 a; f. Q! e
8 T0 q( s. q+ L6 z: U" X8 [0 a* i4 o2 ^print(re.search('^From', 'From Here to Eternity'))
4 ]. n' \& _* F3 Uprint(re.search('^From', 'Reciting From Memory'))5 W2 b3 _ t! j) T9 c
16 R& T- A" a; [) ?- o& d w
26 o( t* X0 H# @ U, E/ L
结果如图:' H N6 a9 D! _% V# `" m
![]()
$ ]) y }$ n& i8 U/ p6 P8 B
5 P: Z7 R; J% E) N: e$
5 \4 R) I0 l! C% n( G8 _! v* k- k- C" C; @& {! _ e
匹配字符串的结束位置,每当遇到换行符也会离开进行匹配。
8 E; M% T5 M6 f+ k5 W4 N
; F0 ~8 U) @# B& w4 fprint(re.search('}$', '{block}')) 3 [% _8 H8 p8 M; i
: o9 X# Y7 G/ g8 j. Z4 A. o4 h
print(re.search('}$', '{block} '))( F w3 F) _8 f' o
: B8 G5 f' _% U7 e
print(re.search('}$', '{block}\n')) 8 G1 Y. e( J3 Y( G, X6 y) Q7 ]
1
+ q, z# @( f& w/ d0 T2
: Q- u) a7 k2 |+ L2 s, r# `35 Q# h8 ^4 I0 ?: k) V
4- _, C0 r: \1 O i' X9 e) r+ y; }9 s' J
5
4 h% `+ j0 G$ Z* M4 E结果如图:
& t6 U$ J8 w* X8 ~4 U. g, j" d; q; v/ t
![]()
! @( G' D3 A6 w3 o2 Y6 I9 b+ {! v. `, q+ Y% |/ g
同样,我们使用 $ 来匹配 $字符本身;或者包含在一个字符类中,像这样 [$]。
* H; U- n- K, m: j8 l/ j- I
& n. j, x1 }. B; ~2 i; K1 D\A0 ~! h- o- P4 G7 A! {8 z
5 }- V0 v( S; p$ l5 H( a只匹配字符串的起始位置。如果没有设置 MULTILINE 标志的时候,\A 和 ^ 的功能是一样的;但如果设置了 MULTILINE 标志,则会有一些不同:\A 还是匹配字符串的起始位置,但 ^ 会对字符串中的每一行都进行匹配。
7 p9 t7 P2 y. H# L( L2 \
7 L3 ~* p* b7 w+ }6 e\b: I ]7 F- H! n X3 w r J
: R3 [, W! }+ a: [# q单词边界,这是一个只匹配单词的开始和结尾的零宽断言。“单词”定义为一个字母数字的序列,所以单词的结束指的是空格或者非字母数字的字符。
0 a: h T. t8 r* `9 q8 W# C) n0 o# q: Y/ Y) D0 B6 Q0 w
零宽断言相关信息请点击零宽断言查看。5 `! O+ ]4 t" P! u7 r: T/ I1 v8 H
. u+ F2 Z5 H2 }' w1 d1 E: ~下边例子中,class 只有在出现一个完整的单词 class 时才匹配;如果出现在别的单词中,并不会匹配。
) t5 I% j1 }$ B& M& s5 S" C0 [
! [/ B. u x2 yp = re.compile(r'\bclass\b')
; t6 K0 \7 ~* `9 f# J- T& ~/ iprint(p.search('no class at all'))
0 K8 k) v" i8 m4 e z& B0 Z3 C5 |7 D
print(p.search('the declassified algorithm'))9 u/ V, R) N) J, I D$ g
- T( ~# ~; P* `8 L$ B
print(p.search('one subclass is'))
& \0 ]3 Z- ~) N! Y1 P1 I1 Q7 ?! N& S3 A1 C
2
; G) E5 v. v; Q6 {9 ^' L/ K/ ~3
% n7 N: n" K( A3 x3 L* ^4! ^! O6 o. ]8 K0 ^! B6 k
58 s6 E% ]3 x0 p# x
6) m+ ~% h7 F$ w5 p* E' j/ f. L
结果如图:9 h7 E# d1 v- R$ B. s5 d- U6 Z
( p( ] L( ]; Q2 B
在使用这些特殊的序列的时候,有两点是需要注意的:
$ i& v; k- ~8 Y9 V6 x. E- Q) L; `, ], n0 s' e' P1 v8 c7 w8 b
第一点是,Python 的字符串跟正则表达式在有些字符上是有冲突的。比如说在 Python 中,\b 表示的是退格符(ASCII 码值是 8)。所以,你如果不使用原始字符串,Python 会将 \b 转换成退格符处理,这样就肯定跟你的预期不一样了。. Z- W( `3 Z; n( V1 _
相关原理和解决方法点击详情查看。5 w- L$ a0 U4 R& l1 N; w
; n, M- u, @+ P4 d; J! x, T5 @第二点需要注意的是,在字符类中不能使用这个断言。跟 Python 一样,在字符类中,\b 只是用来表示退格符。2 G/ o8 S8 \. O1 [7 C G9 I
7 p( V/ M9 ]2 m* D* i
\B
0 `! i5 n; R/ {" j- z8 t
- T9 f" x& I8 o; M另一个零宽断言,与 \b 的含义相反,\B 表示非单词边界的位置。8 L- d- H" j2 ]- p( V
1 ?6 S" K1 v% V$ @3. 正则表达式实例 O2 W4 M% U/ z) P- G
![]()
, H/ G# |5 S. X# F+ x# a; i5 _' U& D( e
经典正则表达式实例
" V: M, M5 k p/ l![]()
/ z, F, |( J7 R) v- r' T8 s0 Q) z- S: B0 ^匹配IP地址的正则表达式
! q; b. Z& x# p& Y/ g; O9 \( J* k: C/ Y! D& P" y+ o
IP地址字符串形式的正则表达式(IP地址分分4段,每段0-255) \d+.\d+.\d+.\d+ \d{1,3}.\d{1,3}.\d{1,3}.\d{1,3} 不精确
. W3 S* L. H- X9 H# e; ?& [ S
& ~& e/ n" W Y W* j精确写法9 X- `5 P5 K* M0 X/ q
5 U- j* C7 X0 _+ ^. e! t$ _
0--99: [1--9]?\d 100--199: 1\d{2} 200--249: 2[0--4]\d 250--255: 25[0--5]
Y$ |* r: k! ~* F& C! P4 Y |(([1-9]?\d|1\d{2}|2[0--4]\d|25[0--5]).){3}([1--9]?\d|1\d{2}|2[0--4]\d|25[0--5]). `8 z5 `! k5 R! o* g
原文链接:https://blog.csdn.net/qq_44867435/article/details/105104177. G) {9 [- r/ y) S9 I. G! Q
' m* X7 `. e- H2 C3 U
) g) S( }9 A7 [0 W; D, U+ e2 i |
zan
|