- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563289 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174210
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
: y9 Y* u; g& e+ tPython爬虫常用库总结) M0 s. R7 T4 e: Z4 Q
文章目录) z) g. f3 S2 c# J! l* B+ n. B
requests: d0 K4 B+ A* z4 ?5 K
requests基础
) R& X' t9 ?7 k# N4 frequests模块发送get请求) q/ G" ~ I3 e/ z
response响应对象# C ]" O6 s# M/ i1 [
response.text 和response.content的区别
/ \' w/ S5 j M+ r9 t" o% r4 ?解决中文乱码
& {. h' ^" y6 b1 _# bresponse响应对象的其它常用属性或方法
7 E5 H; s \3 T irequests实操
7 R) a2 I6 s0 n& S ]) qrequests模块发送请求; @/ G3 R |; B
发送带参数的请求& b! L8 C+ F4 G: Z5 e/ l5 r
超时参数timeout的使用" }, J8 y* W0 u9 ^8 X8 S3 g/ J2 j \* l
requests发送post请求的方法
! K1 ]: G* J3 O2 w; R r7 jBeautifulSoup
1 D' T2 ?' \8 u; ]常见解释器的优缺点9 M. L, I3 x5 r. c% L7 f6 T/ `
常用操作
# }- o# l J) q+ H ^几个简单的浏览结构化数据的方法
6 z7 ^ l: b! W7 G& l% u从文档中找到所有的< a>标签的链接) `3 O. ?1 _ u5 r
在文档中获取所有的文字内容6 F0 W2 I% l& B' j/ X
通过标签和属性获取0 v' \% X# |7 m5 R3 o
Name属性7 U/ w1 X0 \( G' @8 j$ v0 }: P3 l
多个属性
( o; g8 h s& u+ U+ E+ D多值属性
. u4 m: t, i: l% P+ h4 T- q! m可以遍历的字符串3 C* M0 ?) C; x; C2 a! j; U9 g/ F0 {
注释及特殊字符串
% z8 l P1 Z7 k9 W+ Y遍历文档树
}5 I$ }( W' K/ d c6 c. E1 `2 H4 t子节点* V* k. Q; S* z- p; {0 {6 }! @* V
find_all方法
2 k0 b) L: W6 Z) s& r/ C6 @.contents和.children5 e" f% n9 O, Q
selenium
) Z+ u9 M. p) t" L& X1 @$ l/ _ dselenium介绍
; j [3 W+ a5 ychrome浏览器的运行效果
5 R0 ~1 b1 H j3 m( @# M2 Wphantomjs无界面浏览器的运行效果
' n8 q" o9 h) D' |2 ]selenium的作用和工作原理* I: b2 W+ [+ l5 t
selenium的安装以及简单使用" H7 L7 R& N5 l* k, [# L
selenium的简单使用. V9 h7 |4 S X' g, {) g
lxml
5 G2 g" A7 X- ?/ Y `+ R! k8 d记得安装快速第三方库,Python经常需要安装第三方库,原始的下载速度很慢,使用国内的镜像就很快啦
4 `1 T- A, o! ~ X" |4 |7 D* q1 g" i' A! C
$ ?$ R: ~$ {" O' ]% cpip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple 包名& k+ w4 |2 o! z' }
1! ]% S7 w0 y6 z5 ~
快速下载模块
) p" u& ~, g1 }0 y+ u' p$ d! w* y/ q0 `& U2 _/ g
2 q/ W3 k8 j7 d& K. D官方网址:& u; k$ J& ]+ E6 N6 g# q) G
0 S3 r3 C6 E& B% {
+ I* c7 g7 C. H2 K3 T8 Y
Requests: 让 HTTP 服务人类6 u6 D3 y$ v" v/ e' W) s1 j
Beautiful Soup 4.4.0 文档
4 ~2 C3 x- x2 |5 f, ]Selenium官网
$ X( `& V9 h6 h. U L `lxml - XML and HTML with Python
" W$ Z, @* r7 R$ S2 b4 X# prequests8 k% e5 f9 b2 B$ J' ^
requests官方文档 https://docs.python-requests.org/zh_CN/latest/
5 S4 D: j+ A2 ~
# s# L- U: A* ~9 {$ H
9 C8 V/ |9 Y3 `# T8 L- `
( H6 q; t5 n. {0 M: Y! G% @# c
5 p% Y$ C6 V- j1 @+ a9 K2 I% _0 u! M {/ H4 g5 y0 J2 X2 E* \
5 i( M% I3 y: c" m6 n+ o进行爬虫,首先要对网址进行请求,这个时候就要用刀我们的requests模块了。requests是python的一个HTTP客户端库,跟urllib,urllib2类似。与urllib,urllib2相比,requests模块语法更加简单。正如他的官网所说:
. O4 w1 C( f7 h4 L2 S# ?
2 ]) F2 Z& G3 B$ b' r
+ R$ @' e! q( v* h, f
! P* c) I: c& @) k
" r. D A# B; M; N5 b" ^6 |requests模块介绍
% k% p" @. h7 P {: R# T4 P
- X; A; G/ N9 W Q! ]) m5 M J d2 k2 Z
发送http请求,获取响应数据8 X& h8 o# ?' K w& w, n% v
5 Y* [" o" ]5 m
' ~0 C: [% x7 Q$ v) hrequests模块是一个第三方模块,需要在你的python(虚拟)环境中额外安装7 J" [' P2 G3 B3 a+ \. U
1 O3 C- ?$ B/ O2 p$ z
/ X( ^3 H& ^' W0 x; Lpip/pip3 install requests
8 r5 v: f5 n: ^% ?+ r" ^& b: }
; P# l$ A1 v; R; F
! |4 F2 i$ P- B8 Q4 Prequests基础
+ d; e. \1 n( Lrequests模块发送get请求
( W5 Q# q+ s! ?2 ?9 C* y# Y#https://beishan.blog.csdn.net/; e9 K+ S; F5 W+ G: }/ ~ B" ?; c
import requests
' _5 H$ l. W: m$ B5 @7 |) L# 目标url6 A& E! d7 q/ h4 X, w8 C
url = 'https://www.baidu.com'
p6 P1 T" W1 @# 向目标url发送get请求
2 L z, j3 u1 t0 f$ d6 Y+ Z2 Presponse = requests.get(url)
' L. b/ P' Q. M" f7 Z# 打印响应内容
. y- V. b( h+ j, D% B) \print(response.text)
" F& t; p& E/ t% I9 j: t" }8 v1
1 k# V/ f9 ~1 A1 r2$ x2 k* Y: I9 T+ X4 A4 W
3
3 g# `: } H# u$ P+ R/ _40 z1 F) r* L: j, {) M3 x
5. e/ P2 y3 Q; L& O$ k
67 @ A$ D: A$ F2 B2 E
7
3 `: m6 X b" S1 v% g8
; k4 j# |7 S/ W: x# @response响应对象
4 |' N4 |: Q. d L& I6 c7 d8 `观察上边代码运行结果发现,有好多乱码;这是因为编解码使用的字符集不同早造成的;我们尝试使用下边的办法来解决中文乱码问题+ W9 z/ S/ r* U* c
1 o) N1 n, @7 u9 P* }4 ^# q
1 D. l& S! z' T/ }import requests L$ L7 ]6 Y6 R3 E5 K
url = 'https://www.baidu.com'
7 H+ s+ ^. R: Z3 {& d5 m: k R# 向目标url发送get请求$ q( L. Y7 d) m
response = requests.get(url)% p2 V, E1 h3 s& N V; D- U
# 打印响应内容
3 j( Q$ Z: l# ^# print(response.text)( U) ?& v# C2 M! g2 E8 `
print(response.content.decode()) # 注意这里!- t( |/ N* H. p6 e% ?5 V7 Z K
1
7 E' e1 u& F5 u' A% y0 J2
5 d# b2 g! }- Z3. K5 I) O" `9 C- Y
4. l% o" y6 \5 V8 }8 h& |- c0 h
5
9 j6 z: d' u u8 `! w4 N$ s6
* W: }' z: ]1 [2 f$ i* D# n) ~7+ D( K: D7 X* j0 m- Q
response.text是requests模块按照chardet模块推测出的编码字符集进行解码的结果% H; F8 ?' T" o+ u. T
网络传输的字符串都是bytes类型的,所以response.text = response.content.decode(‘推测出的编码字符集’)7 a1 Z* r- ?1 _; w3 b, q; n' _
我们可以在网页源码中搜索charset,尝试参考该编码字符集,注意存在不准确的情况
; a: b$ D/ s; q4 i, [) Tresponse.text 和response.content的区别! t6 E8 n$ b! [( x2 h
response.text
1 E8 I4 c3 B6 o/ v/ w6 @类型:str9 }1 t+ ^( A& }* z9 \6 p, G
解码类型: requests模块自动根据HTTP 头部对响应的编码作出有根据的推测,推测的文本编码
' H$ {& |& N0 }' r5 w' [response.content
% ]1 I6 m8 s0 v类型:bytes! S5 q8 M/ g- h5 U0 Y2 m% c
解码类型: 没有指定1 H. K, _1 T# @, k' |) d
解决中文乱码
4 f" f" \9 r1 A- G通过对response.content进行decode,来解决中文乱码 C, v- |/ g0 N# d% ]( b
/ U: R( ]3 n: o2 v' N, s: v6 ]9 P$ s) ^$ Z# ~
response.content.decode() 默认utf-8% y/ b j* e3 U- _* f0 t1 q
response.content.decode("GBK")
) w' y. {8 V' ?) p) N常见的编码字符集0 u5 E2 J" _* `
utf-8
3 a1 O6 U$ {- _: u5 v C5 R, [gbk
: z% l$ b2 c8 F X$ j# igb2312
% r" E( S9 T8 b8 Vascii (读音:阿斯克码)
0 W; K9 h4 m9 c0 kiso-8859-1
d3 C& E6 y* ~5 K# I8 ~response响应对象的其它常用属性或方法
+ c d; o9 ^, r" \#https://beishan.blog.csdn.net/
) Q1 Y/ v7 ~3 m: r# 1.2.3-response其它常用属性
7 p3 T: J2 p/ A- Z# G/ D9 dimport requests8 H- U5 `, U: Y
& V ?$ }4 u6 q
, N% Q. n% `) P4 R9 s# @: X+ X
# 目标url
; ]3 x3 W* x& R; O; M( \url = 'https://www.baidu.com'
: n; w+ s$ `0 S0 q, i. Z3 l! K+ ?
% \/ Q2 c; p: ~3 O
# 向目标url发送get请求) A2 @/ X8 |3 n" H1 E* F& x5 e; S
response = requests.get(url)7 \ F. ?9 g7 U) R0 I" j! w7 J) b5 J
' \3 O8 N5 P+ Z6 Y& D
2 C \* F. G, X, Z% K+ j# 打印响应内容6 N/ c3 K2 ` J$ z) Q0 x
# print(response.text)4 y8 i1 j4 G; d3 a8 D1 v
# print(response.content.decode()) # 注意这里!
" C( {$ c' O* ?9 `4 m8 ]print(response.url) # 打印响应的url
$ [5 `4 a6 b0 z, q& }( O* aprint(response.status_code) # 打印响应的状态码- q! `+ \4 m6 s- i' B; E
print(response.request.headers) # 打印响应对象的请求头 R" Z8 c4 W! Z$ h( z
print(response.headers) # 打印响应头2 K# m- w$ o1 t
print(response.request._cookies) # 打印请求携带的cookies
- J0 v$ ~3 M( e/ D- [) Aprint(response.cookies) # 打印响应中携带的cookies
6 D+ Y4 H% I0 ?% O# t1) G8 S5 E% ]6 t4 }. t6 \/ Z% `+ h
2
3 @$ i6 X4 G- V5 P$ D3
' y/ w% F. C' |; z% J4
3 T1 I# \0 U1 W: E: X8 T1 P p5 o( W1 u! f& B. Y: u- h, x% }
68 U. n' e* d2 J# v* L* L7 f- y
7
6 w. o2 z- s) \6 R0 E. j8
0 \" ^8 y: ?7 k- Y) o7 v* \# X9
& w& d8 E4 q7 x4 F Y$ @- b* B10
4 o: r: V% n* M W118 O+ O- ?& M" O% S( ^$ V
12
0 ~' K0 Y8 s; U, _& r& u& Y: D" p& |13) f& A+ h4 i5 H* ?. Q0 Q4 g2 S3 n4 N
14
" O6 N1 k* J7 a152 J- D; j5 B: A, i
16
4 c o- d" G C% f0 \17- m1 I# H7 }3 h4 W% U
18- o h) n. L. [( r1 O1 W
19
/ o* `* a& e- `; @, O9 Prequests实操
7 u% X) [) j0 J6 \9 I& X% a+ g0 `requests模块发送请求# w, |# j0 ~# L! e& O" b$ O! V3 C
发送带header的请求* l' |! _, i. L! z) Y. S
( k# l% Q) h0 e5 _* b4 g
4 I9 b: K: i t; Y' x) E! u我们先写一个获取百度首页的代码& R/ x+ t) G5 M5 e
) { l z' D/ Y
# s0 G$ t; P+ I3 k4 v1 j
import requests
. l9 B' O( i7 R& a0 l+ O$ v f0 Nurl = 'https://www.baidu.com'/ m6 G) [4 X9 ~& c( } g e
response = requests.get(url). x% r/ K# c3 ?4 R2 E& f! `
print(response.content.decode())
- y; `- u' H& |1 u+ c" x- b/ H/ v' @3 I# 打印响应对应请求的请求头信息! C6 w, a1 W/ B2 \1 X
print(response.request.headers)
& n' Y2 u9 D6 B6 ?" c1
# B" |% f8 f7 k) l2
4 I7 E& q& _! x! L3+ M( l4 Y. h) i5 d' S+ s; t
4! [3 n* ?8 o0 C& b- P& {
5
% t; `9 [- u u# l8 B+ _6
6 J) J! j5 W2 [' R8 S1 Y从浏览器中复制User-Agent,构造headers字典;完成下面的代码后,运行代码查看结果& R: X/ h8 y9 Z, _) n+ c
" `! E, d7 q' \+ V" E) m1 x0 \' a9 t: j' Z( j
import requests
, I8 y( i4 z& @/ b$ _; P' b
2 r# u( ~+ g q* C3 u/ G' u6 n' A/ M. o1 ]& q
url = 'https://www.baidu.com'1 \. R A1 x+ }
; }6 A" I! c, ^' @( ]9 V- { `
G) @8 j8 L$ K4 k9 ~. M1 iheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
4 a9 o* y. W# Q& M" {: y) R
7 M$ Z$ l5 ~& T' ~% h6 i: ^2 d+ K/ I9 r6 T( E E- V; b# f1 p
# 在请求头中带上User-Agent,模拟浏览器发送请求9 G7 s. J: t+ ~4 v7 R/ }* H0 P0 l
response = requests.get(url, headers=headers) / T$ L- t; j& L# P) l
9 H- y1 h& u# [, O' K/ H
$ m) X( [( F! vprint(response.content): k! M0 g* a- K/ i: G
3 a2 q5 q0 t" [6 t1 W
7 Z3 z, E2 W1 M1 S8 U' I( D
# 打印请求头信息
' P r- G/ D. u" g- Q; Fprint(response.request.headers)7 P% q+ ^" Z- ~ h
1
! t* p3 ^- v$ F' x2
$ o* ]) T7 S, B! x3* F6 O% t4 {' s' N% V; x
4
, V* N6 K9 M, x+ x" L52 R2 c. {- E4 L. P6 n1 u( N
67 X: E" W- D. ?' g* p$ R
7/ d$ \% i h5 h: y. d
88 Y/ R% w S* D* B, H6 i) o
9
Q) p0 S6 i1 Q& f' i108 @4 _; [" j, R# |0 Z
11
1 T6 R8 O$ R2 Z5 i7 p$ P+ j12
$ j- M9 f/ a. d5 p C( ]6 j9 i13+ {. l5 L1 p( |5 C% m2 T
发送带参数的请求
) x1 C$ ^- U1 ?我们在使用百度搜索的时候经常发现url地址中会有一个 ?,那么该问号后边的就是请求参数,又叫做查询字符串
9 Z8 J7 c* V H7 o
* L; U2 }$ @! o
- J1 X" b3 x* \/ b在url携带参数,直接对含有参数的url发起请求2 o7 r0 w, @2 H# O) o# F. V0 r3 j
+ J" q6 G- r( v K+ N2 W
7 ~9 B. q- S7 dimport requests/ a; q. n9 q$ D! u% z6 T
m$ b, Z1 u& d6 G3 n4 {) j% |# Q7 ~
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
5 A4 q W0 _) F( a
- E" s* f$ [. O" c6 D; S* v' q
url = 'https://www.baidu.com/s?wd=python'
9 z& q* p* k- I# r( Z, S, Y; J& z* a! A$ h8 V
2 ]! [+ f8 c5 D. k% w* o: l& F' z
response = requests.get(url, headers=headers)
& L: |2 q6 Y, }: c" F S* \
9 L6 C: I+ U6 O& K2 x' l, D. n3 |) C1 `& x& S0 X% ]1 i w
1$ ?) a8 x4 \# V# h7 o6 @; U
2' r, t# _2 E/ `# ^8 T7 a* V u$ C* G" T
3
% ^* {: w, i! h) L$ w8 I7 I4
7 ]9 O( |, ?+ K5 W* r' l% @: a57 N N( Y/ P3 N- O! V* ?
6
7 h, ^5 G/ v I4 I3 n7* X/ T( w& ?; g2 w7 T
8
9 J& r2 w9 \# O% e6 w9 q- P通过params携带参数字典: o0 m E5 y% D2 Z0 b- I; i$ ?
% Y) I" y. y3 V) J. j* n I5 S4 m: S- m: U
1.构建请求参数字典
+ c1 y2 c( F/ t
' a( E- s; Q! N+ _' |( @1 L+ S* T" F0 C% }8 ^ H0 F L' x
2.向接口发送请求的时候带上参数字典,参数字典设置给params1 G) S+ A3 f% W) Z
: `3 u* ~. ^( I% f+ p4 R
5 K5 V1 F0 K z- r9 o( X" W8 ?5 Nimport requests1 o! \. D+ @( [& b- E h: o
) B, d0 x+ O7 e# i
! a4 q7 r) d- w5 M3 H' vheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}. t7 ]1 q' d; r" o' {& x
2 Z# b6 ]; _2 ?2 N
8 I0 ^/ N- _: ]3 k4 {/ ~! A N! k
# 这是目标url
* o& o8 k. T' M& s* }# url = 'https://www.baidu.com/s?wd=python'
l3 _" P m' ~( S9 y
( D, e) V8 |- q* U
L/ _$ Q/ K, Y6 \; c# 最后有没有问号结果都一样; r; |3 E. I5 r' _5 L# L$ {; W m, |
url = 'https://www.baidu.com/s?'
) ^/ w, }& Q N: v* k2 V# B! q, L% m8 v4 a
k8 R: S% R: o/ T \; z
# 请求参数是一个字典 即wd=python
* e6 s8 e7 L% [6 ukw = {'wd': 'python'}7 m1 U, n( k1 Y r# ]
7 b7 |9 E) [% K7 y; ~) W# q! t! J; { a: I6 O
# 带上请求参数发起请求,获取响应
. b1 y8 S5 Z- \4 M& W8 ^- Dresponse = requests.get(url, headers=headers, params=kw)0 l5 J! m4 v) [7 V1 Q
7 b7 V- v0 Y) X% g
% m7 a! j% R1 x# V
print(response.content)0 D5 _7 z" \, M
13 s z5 P/ F6 t
2
4 |* G0 l9 t9 w, I3
8 R$ ?/ Z; G# j7 r' E! e4
- m% B+ j0 [6 M& R1 I59 A1 Z3 y; o6 @3 `
64 z2 k9 ~/ X% n% w5 H; T+ X: D0 D
7
: W5 O. |1 C: V' d- S9 N/ H8 Z82 F3 _% I6 r7 P1 _; U
9* `1 C9 P& o9 d
10" u5 O* F( K1 g. [1 S
11
% f) ^, w8 i" Z# K" G4 L2 p% O6 B12, O+ v h& K& t, f4 w* A
136 {) n" j: {7 _3 p, @3 s
14
3 [) ?. N& e0 S15
0 t% z* M+ w+ M; U% P5 ^" ~, [16
& ^3 B. B5 }1 u% a. ?173 O; C! U2 \1 W/ D0 o. e9 O
从浏览器中复制User-Agent和Cookie
& ]4 d* i3 O& V浏览器中的请求头字段和值与headers参数中必须一致+ d3 w r- G2 h+ n- _: X
headers请求参数字典中的Cookie键对应的值是字符串9 F, q1 }& _; ]
import requests
7 O! p& L3 G o; Y! V
2 }5 w: A5 s9 S3 q/ O) Z" e S" l
, M% j7 B( V& Iurl = 'https://github.com/USER_NAME'6 R* ?- G, K2 R0 a0 s3 D; ]* A
4 w9 a2 y# s9 Z" D
9 B) G; C! Y( y+ H; u
# 构造请求头字典# l: H, Q* |* i A* k# X9 G
headers = {
( \3 f) n Q0 { # 从浏览器中复制过来的User-Agent
, N" W0 ^ e3 T( }" _! i" q 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36',9 j) ~7 |+ m; S% }- w# o# d C
# 从浏览器中复制过来的Cookie
) W/ R# W. X3 K/ ^& k6 A" {- _ 'Cookie': 'xxx这里是复制过来的cookie字符串'
( q, d; ^0 {9 c, O}- n- e9 D1 ^! e6 p, b. E
7 m' s5 {2 Z) L' H% u0 K8 B+ @+ J" i/ |$ m" P3 V
# 请求头参数字典中携带cookie字符串: J# Q5 |5 `5 f7 V4 u/ f6 m! r
resp = requests.get(url, headers=headers)
' _& F8 h" j6 t+ Z5 T
( @+ O! \% n" Q' }! O$ c$ Z6 D- a: [- R& B7 U* ]" D
print(resp.text)) B2 z2 D) A5 z8 y
1
! P% Q- `( m* O0 ]2+ [) W' w( e1 a. e/ j: [5 E) n) Z
3
# u$ W9 L: @" j, {4, h: O! b0 g y
5
- [0 V+ n* Y2 K, B# Y M6
7 i0 t! j. |! k1 s* j, b( d7
1 P) c. C( C9 V" l+ k. `: d/ T8
) q4 Y: L* V9 Z! ?: ^( Z2 u+ b9
8 i* m/ X6 E0 B+ w; i0 N$ I/ v. a/ m10% _+ s" j0 ^7 y
110 J s) ?4 t8 g% E+ \) o
123 P& o+ W/ z( ^; y7 [. W5 |. {" R
13
" `/ A# J ~ Q w3 F14
8 E* G6 i9 s- w9 D7 R, X/ X! }151 M8 N0 B- p/ P3 t; n
16
! Z) [6 ?! s8 Q3 B: ^% O( q超时参数timeout的使用9 N8 {' X( D* w* {! S
在平时网上冲浪的过程中,我们经常会遇到网络波动,这个时候,一个请求等了很久可能任然没有结果。% I8 a* L2 D' e& n4 e5 r
4 Y* F) q" n! Y* R) r/ a; S* T- t4 W) W
7 Y8 p) W2 h% Y" |4 w s) H( I
在爬虫中,一个请求很久没有结果,就会让整个项目的效率变得非常低,这个时候我们就需要对请求进行强制要求,让他必须在特定的时间内返回结果,否则就报错。7 _; u; |9 V# b0 y- j
? h% }; B/ |8 p( z8 ^
* g2 Y- A$ q" v# V超时参数timeout的使用方法* V! \* O) ^; `3 k, O
9 L7 e9 r) V1 b5 C# j
% P4 Y$ V2 N# @7 B3 iresponse = requests.get(url, timeout=3)1 G6 L. H( o8 e O9 {- T
6 D1 w/ a" |& M: N5 v8 m
9 o% r+ j$ y- v0 L* t, G: F" Vtimeout=3表示:发送请求后,3秒钟内返回响应,否则就抛出异常
& w0 C! c( t9 u4 v" g: s, f' Z6 H+ [% `* |) S$ O" d
4 Q2 `$ O2 q! R6 _3 I5 Z; @; g
import requests! h) y- N% s1 t3 o1 m c% r
$ K: O. w( z9 F( E% n7 f8 f$ _+ ~$ y( J
* P2 G W \& z; H1 Y) N1 h
7 R6 L3 y- A+ M& K* ?
url = 'https://twitter.com'
1 v/ o4 y# \# k/ m) b! kresponse = requests.get(url, timeout=3) # 设置超时时间
6 E( N. E& |/ H! X( k1 n9 ]; F6 l8 T a' v
( R) ~ u! a4 c, F9 O) c) }1) e# }, j+ {' Q4 g; c9 D
2# O) S! x3 z( Q w. O! d
34 T3 n, a, m4 R
4
/ X1 V) x( P. |4 C7 w5
# r7 l) n' _ M( P z2 }65 G$ R3 w2 q+ l9 X) x4 }: O5 e
requests发送post请求的方法
) k6 _1 V- o# w4 G- R9 |response = requests.post(url, data)
# T: v6 r2 y3 G8 c! c& Z3 \
; k: G0 }* ?8 I. V- c( D
, C8 @/ i7 b5 c9 }7 {data参数接收一个字典& l+ j. r+ | }0 ~$ H
8 s8 m5 Y$ _- ] e( K3 i
" ]! z2 _. z& E Q" Q* frequests模块发送post请求函数的其它参数和发送get请求的参数完全一致
$ \& v( D: O/ R, E! ^
, q3 Y2 J; F( g; e
0 _) p% w$ a! M8 G4 ]* [( C# ]BeautifulSoup6 B: s* N3 {3 K% f1 W
BeautifulSoup官方文档 https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/1 m) @" i$ j3 N) _, n0 }
3 S3 N# l8 i8 Y/ s( C0 M/ p4 H7 b2 H2 D5 o$ ~
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
# y; c: C/ N3 K% V; }0 t/ ]- W x
" w4 C0 K5 T& z% t/ T! M# A
n' ?& M9 d; v8 n3 h2 z9 T; A3 S& `6 S- z
: c- l; U$ D8 Q: Z7 [9 b
* i# v" A% \0 F9 e5 O! j' v, y8 F# g1 g
文章目录
- F4 q( ?/ T3 c- rrequests* S; |' L+ m8 d$ w, H9 b
requests基础
: j* Z9 D) p; B7 srequests模块发送get请求0 X/ `. r7 F+ ]! f7 m( R
response响应对象+ q, M4 Z F7 I4 W" U
response.text 和response.content的区别3 ~$ w8 S: K4 M8 j. o: [4 B" u5 v j
解决中文乱码
* ~. |/ x5 i4 cresponse响应对象的其它常用属性或方法$ D7 C4 F7 z/ o' z, N8 Q0 R3 f$ |
requests实操' |$ C0 ~& F3 g" \6 i+ {/ ~, [
requests模块发送请求
% m; i9 ~; i% Z9 A发送带参数的请求& V% w: x1 K2 ]: X9 ]& x
超时参数timeout的使用$ h) i- \! P1 P% Z2 S G) D& X
requests发送post请求的方法 d9 |0 w/ _/ e2 q- S( y
BeautifulSoup' p# R% s6 y H8 v( i" |
常见解释器的优缺点# i" F) b* R0 a
常用操作% X% Q. m! t( q/ ~5 E
几个简单的浏览结构化数据的方法. B9 H3 z, ]0 U+ W
从文档中找到所有的< a>标签的链接
; c' e! |5 `6 X! s+ P4 S5 {! W在文档中获取所有的文字内容: P) o" N+ n. q$ l# F# Z
通过标签和属性获取
a# w* @6 O' { s w) n# n1 ~Name属性
' \ W, p* [! j( ]$ {多个属性
# V# V; w. B- X( z q1 p a+ ^多值属性) Y0 t& d2 C; A7 o7 t2 Y0 A
可以遍历的字符串 G/ n% G }2 [$ U0 w/ w3 W4 @
注释及特殊字符串
0 w% D5 v0 m2 L+ a7 a- w遍历文档树9 {/ w1 w9 u; Z. _# Z! _& ?
子节点
! h4 a' S1 w9 s! I4 }find_all方法
+ E9 g/ r) J) t* M.contents和.children
+ _: a$ N& s. i4 p$ _- n2 Qselenium8 }% C ]0 ?! {$ ^, ~
selenium介绍3 j6 ]5 ` e4 L$ u0 z* _
chrome浏览器的运行效果
7 ]! ^7 x* m' j* c! aphantomjs无界面浏览器的运行效果# M* c$ C: ?4 t5 ~& `3 U, `5 P3 c
selenium的作用和工作原理4 V6 q6 r3 S X& S ?
selenium的安装以及简单使用
( ]# \; T, ~* H$ I( `selenium的简单使用" ^# H+ T4 V& z* H+ C
lxml% J% d4 t, Z3 N( { i5 H0 _1 S
常见解释器的优缺点
, ]6 O; O% r4 M+ B; n2 c) v$ F) j6 H* R, O3 X
. t( x* g) [1 I. v; t
6 N$ o6 ?2 ^1 h0 ^. c9 D% N) Y$ U3 v$ c/ ~. R
常用操作
7 @& L" E- i$ j6 @安装方法
7 m0 _! s9 \/ s# l* K" A0 {
% u9 C$ M0 E( J
7 \$ C5 C1 i# y# tpip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple beautifulsoup4 3 w! v9 }. M- G8 V1 ?; i# U
1$ r. `# j- i4 S7 L2 e
导入即可2 ? e0 h7 o4 S3 i5 t2 c. h
( V9 y2 ?" ^) G: w4 o( o4 S
$ d/ r8 \# b. a- S( v" \0 a! `! n ffrom bs4 import BeautifulSoup
4 u5 o& L$ k; F) e1 Z# m1 H+ C# H8 A2 K' [
html_doc = """
0 b# B9 h4 ]( m- z1 |6 j- P, ~! I9 `<html><head><title>The Dormouse's story</title></head>! m; u! \1 }9 E. M3 t. B+ k. X
<body>0 F& ?) I) W8 w( W/ ~
<p class="title"><b>The Dormouse's story</b></p>
p6 _: B0 R2 R3 z2 q7 o9 F* @% j+ _4 H! E/ l$ l9 m) {
1 K; s% C$ s' I
<p class="story">Once upon a time there were three little sisters; and their names were! N% C+ o/ g5 P1 h; o; k
<a class="sister" id="link1">Elsie</a>," r+ b) ^6 g! D7 U) v4 O! ^
<a class="sister" id="link2">Lacie</a> and
0 u d& o" y& v9 g2 z' ], [/ f- v<a class="sister" id="link3">Tillie</a>;
' I* o9 V! I- f! f: Land they lived at the bottom of a well.</p>
' H, [8 X+ V2 y& @9 W5 T8 w% O" Q8 y8 J2 O6 X& f! {
/ L! z" Q+ U. p, N: c
<p class="story">...</p># W) u1 p8 `, R: h
"""
0 Z' O. g# F2 T+ T5 A2 U3 ?1
( Y) o) p+ q6 _. j, o ?24 y" d' ~* o/ h: `1 f
3( h7 n( \3 H1 h
4& {' \3 H0 Z0 x
5, o! S( b1 _- e9 G# c7 _5 j
6! {3 P; a' ?# [
73 i" O- j2 b4 o; }$ I) F
8
& l% Z0 r! D7 {9 M93 `( Q; s+ c7 U
10
" \+ Y! B7 |1 Z- O+ G11
3 Z9 w# X* H( h! L4 v. G12
8 }2 ]0 g! Q0 P' K2 \: ?13
- `6 h' J, K; t' ysoup = BeautifulSoup(html_doc,"lxml"); `# ?+ g* ?3 H9 e* F$ b# j
1
) @6 T/ Z- h$ O2 ^/ I几个简单的浏览结构化数据的方法 I! k. |4 p" Q* s& Z) U1 C
soup.title
# ]# b$ @1 n0 R1' _7 w" V) |- \" c# c9 f5 d' _
<title>The Dormouse's story</title>$ m. P( u" C, q( q) u+ c7 b3 }$ A& ^/ L
1
" w( e- Z! C8 Y5 e+ W- t6 n: ^soup.title.name% t/ Q& A# r1 [+ j
1, e7 U; k3 l9 F. a" n2 p
'title'6 r7 {& I0 C b
1. c, e! _2 Z/ x$ {' ~
soup.title.string# h) G7 @: f% y3 V, G+ R! B4 _
1
' ]- Y, b% ?! z: r! ?- \5 [2 s9 N"The Dormouse's story"5 P! Y7 v* J6 a6 q( J m
1
+ ]% A$ z7 [0 `2 Y. j3 y! C4 V0 ~soup.title.text# s1 d Y+ j% b6 P' B5 i. x
13 {1 M3 H0 t: G" T% Q% d# i ~4 @1 o
"The Dormouse's story"
9 F3 {* p- z" K* Q, m17 f0 y9 T0 z! J7 `0 t/ r/ f
soup.title.parent.name
" I# M9 { A) x, H1: ~' d5 `$ g+ {# ~# z, D ]9 A
'head'8 X* Y# \9 V! m3 n4 Y( i8 W; ^
1" S# Y, [8 e2 j+ Z5 H+ B" B
soup.p3 w, t! m w2 {4 Q- Z; t
13 k9 C* S% ~7 B
<p class="title"><b>The Dormouse's story</b></p>+ R+ b" V& @* j X# N7 }6 ~
1
$ N; u& b' _9 z( k) s! \( X1 Jsoup.p.name) ^6 q# O2 z$ l7 k' ~% s( d$ p
1
! n! y+ \! I9 `2 m'p'
* [3 G) I- Z7 @6 R) i6 K1
# k% u/ [; x; hsoup.p["class"]$ |; }, I8 A6 b* K7 t3 V
1% H! M9 W+ o, ?' i: a- i
['title']
8 x+ s3 u" H: V1 b0 ^ B# }1. `' B; a0 ^# t; C3 x. k6 r
soup.a
8 M g, i3 H. ]! g0 L1
' l1 x+ Q" Y" E/ n<a class="sister" id="link1">Elsie</a>. y6 z6 u; s0 f3 ?. \5 [" i
17 F8 T$ D( H0 |; a; W
soup.find("a")' p1 C' X6 q! ~9 |
12 ~1 d m, U" v4 u
<a class="sister" id="link1">Elsie</a>
6 @$ v, R/ K! c! r+ p$ ^( m1
) o" y: _6 ?- B+ g% C/ n9 a: G6 Y7 p9 Msoup.find_all("a")8 g- U+ B* p- K7 R
1
9 ?3 T* r, V7 @[<a class="sister" id="link1">Elsie</a>,
) C, b4 T6 W) e2 Y <a class="sister" id="link2">Lacie</a>,- H% x. \7 `, J
<a class="sister" id="link3">Tillie</a>]
: Y* ^: `: ~# x9 `2 r9 J- r1' b3 g& n5 Z6 ^! e% n( \
2+ W5 g8 V- ~0 }9 c' Z; Y- ~
3
( R x9 O2 a/ z+ \3 l从文档中找到所有的< a>标签的链接% r6 X% }) @' l' V
for link in soup.find_all("a"):
9 ~1 |) O5 b! d, ?5 W- D: K print(link.get("href"))
; @0 @9 |( _1 u7 k- r1& X0 G0 y# ~- S6 W; A0 u) x
2
2 Y' g$ V! u; ?' j3 C. x0 l! j m& vhttp://example.com/elsie
- z0 w6 l' B( }( k% L& P0 R C! b7 \2 ~http://example.com/lacie
8 Y- V- C' Y' ?* [http://example.com/tillie, ^2 G1 v# {% Q) R' K/ L0 |; J
11 Z N3 @5 f- |% a7 {( o f
2
+ P1 j; F) m2 N4 f3
/ ^5 C6 ?' ^- r5 I在文档中获取所有的文字内容7 G5 {; @: g& p0 K# M( Z
print(soup.get_text())8 P+ u3 p I1 N% S
1
1 k# J' `6 o( hThe Dormouse's story' i) X# a7 _( J9 _" P8 B
1 C0 |# I _7 {
, q/ D: a: y4 t1 l2 r
The Dormouse's story7 X o4 u* n: S1 r
Once upon a time there were three little sisters; and their names were5 F, {- r* r$ q6 l$ x
Elsie,
$ M+ _; g- E5 k' [) X' ILacie and2 O% z- I( x: K4 U9 {9 a O; C
Tillie;
+ @% E# L. v Q ^% |and they lived at the bottom of a well.
) A) ~/ O+ g% S) @* B) J+ n1 R...+ A1 h% V+ x* o$ K5 |, B$ L* f
1
" ^4 M' M3 b7 O3 }1 C2% Z Y/ G U2 Y9 I5 |8 ?
3' n" j, s5 L4 Z3 i+ d
44 m+ }# H7 r4 I4 v& z
52 {# F$ `( d$ K# g+ u
6
% b- v$ l5 ^4 U7 f7
8 Y/ H$ @1 `3 I( ]. I8
" K/ J' m: C( T4 W9
& @7 F; b) A2 }! e
) y4 Y. e( g7 U8 m% R' G, U
6 q9 V4 X0 [+ s( o% @! K4 e
3 E3 z/ f k( K% H* i通过标签和属性获取7 w( n/ Q% M4 Q( @+ ^' h
Tag有很多方法和属性,在 遍历文档树 和 搜索文档树 中有详细解释.现在介绍一下tag中最重要的属性: name和attributes9 ^! s. A+ `1 s7 l; U' G5 R* s, g
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
0 r) I7 s9 _0 R: qtag = soup.b
% Y2 \- i, m ]+ l* v% q7 Ytag2 R# T; u/ e1 W; Z) x
1. A+ e0 x( I& B, `
2
/ }1 G0 n- l* y2 U3 u3
7 ?) _& C- [( H Q0 A<b class="boldest">Extremely bold</b>
! Y. ?% M7 c9 \% f8 w% U1
0 u0 Y: k4 F: w" B* E2 @) [$ a4 d6 Rtype(tag). B1 t1 v' D" i7 y- b* Y$ f: u+ S5 [
1
/ L& h; ~% _& jbs4.element.Tag
- ~& r; ?0 i! ]2 E: [$ q( A1
2 @/ @( A$ }; @* x+ u* R+ L# qName属性
2 W: U4 k' j( T; A: e每个tag都有自己的名字,通过 .name 来获取: W- |9 q9 M; Z- Q4 |* ^
tag.name
. R7 C* c8 l+ G) r12 S) w1 A" ^8 h: l
'b'
8 j. h2 W4 I, s) o5 ~: }1
! X; G2 x- y0 j; n如果改变了tag的name,那将影响所有通过当前Beautiful Soup对象生成的HTML文档
, f/ ~2 W1 @' O0 d3 B5 T) Otag.name = "blockquote"- |+ v3 F6 ?+ p% G3 f h
tag, O1 W# f9 V) Q8 H8 }$ F
1. I6 K- |2 N7 M' l7 C, ?
2; V! T) N8 y6 y3 b; p2 a0 W% B8 o
<blockquote class="boldest">Extremely bold</blockquote>
; }/ I, f- f% q4 z1
( M: F$ r1 j f多个属性
5 d! X5 |8 E+ R& z. f. k一个tag可能有很多个属性.tag 有一个 “class” 的属性,值为 “boldest” . tag的属性的操作方法与字典相同:
C6 V4 K6 t% I gtag["class"]2 i1 V& }, x) V/ A3 `7 ~$ D" D: e
1
3 z8 j4 ]8 G! X% W9 H# k['boldest']
, T, n% |7 A; s. L4 f5 `1
# W9 |% L- \. D% H0 D* I1 itag.attrs
' t- @( b" q6 K3 P Y" l1
! Y- F. P) `' d/ {{'class': ['boldest']}4 {+ D! I. B ^ \+ H
1
3 s' n: @& \. ~9 G3 Rtag的属性可以被添加,删除或修改. 再说一次, tag的属性操作方法与字典一样
: X! b; h) h7 m/ c6 Stag["class"] = "verybold"
. U. x; Q1 `+ K1 dtag["id"] = 1% g+ z9 K9 u3 S7 a4 @) u* N/ I0 a
tag' }* b' x g$ j% U+ y' d
1
+ x% j V- x% \/ e! a: A2 ^2 e' O29 a. q! U T/ p7 V9 I
3
$ ?$ S3 X. k0 N7 }3 L3 W; s) {<blockquote class="verybold" id="1">Extremely bold</blockquote>
9 @+ t2 [2 n9 n/ |9 S: p! E8 F! X1
* t. k( Q2 K4 I4 edel tag["class"]/ w- f, [" m. T$ ^6 b( u# J
tag
, E% J C" Q, F2 O+ s1# z& f" i4 b: t( ]6 V! a; @
25 H* J+ N! V* v8 I
<blockquote id="1">Extremely bold</blockquote>
" L; m2 ~+ E% I1# U4 d# j* l5 J9 L* C% ?
多值属性 F3 k' R' H- m2 e* V
css_soup = BeautifulSoup('<p class="body strikeout"></p>')
6 g& g0 O! Y) ^css_soup.p['class']% J( s9 C/ c" x* ]) J: p
1) y! Z+ F) d8 ~ [
2
6 B# t7 Q" f0 F' g9 ?4 _['body', 'strikeout']6 V3 X/ S. E8 P+ D* r, Q* k& @
1: x: N0 M9 {. |) L, c+ F' @
css_soup = BeautifulSoup('<p class="body"></p>')2 [+ l1 k; D6 s; @
css_soup.p['class']2 ]$ @( N5 r/ C" @
1, c2 V8 ?7 E5 R9 j5 A4 \ N$ V
2
) p/ F+ M9 S5 \) }['body']
6 T* n% Q* H) n% w4 R1 z- X9 c/ D4 J
可以遍历的字符串" t- q0 }( N: W' J S
字符串常被包含在tag内.Beautiful Soup用 NavigableString 类来包装tag中的字符串:
4 r2 D2 T9 h9 btag.string4 H/ h% M, O% k' ?; K
1) J3 E7 M- j2 f* W& I2 D
'Extremely bold'# ^# w+ z2 Q3 j: D; ?$ m
1, l5 S# z2 f" T) A
type(tag.string)* ^7 d* ?+ b e' l
1- j$ K: q" s& G' V
bs4.element.NavigableString+ n4 u) F) q+ R1 q/ P+ d' Y. X. J
1
: O6 X/ [0 w/ L1 N一个 NavigableString 字符串与Python中的Unicode字符串相同,
' a% F( S) X2 [9 `并且还支持包含在遍历文档树 和 搜索文档树 中的一些特性.
* w y+ r1 u( Y" n% w6 Q通过 unicode() 方法可以直接将 NavigableString 对象转换成Unicode字符串:
1 O- p3 V! G/ x4 T1 G b/ Q, R- f, H. R8 t2 L2 _/ G
2 ?8 l9 V% k3 H& Utag中包含的字符串不能编辑,但是可以被替换成其他的字符串,用replace_with()方法" U6 q/ U( T9 e# c5 O ~
- K+ |+ m' c# a8 b
8 W* Q5 o0 T& H6 T" ]tag.string.replace_with("No longer bold")
+ G) `) e7 O. A& y; m) w$ S( etag+ Q- l# m1 C- a0 a' H
1
# T5 q) o9 p7 a* Z1 S, x, s! N2
F- s3 o9 ^1 ^( R<blockquote id="1">No longer bold</blockquote>
8 q! T5 n8 ?8 ]11 [5 o" C6 U$ d3 Q6 F
注释及特殊字符串, o! A3 Z$ z/ k3 f2 K4 U! H. J6 ^2 D9 V
文档的注释部分$ M/ `! _! }- w0 x( w
markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"% Y- c( O/ h, e s" e0 _- b5 h
soup = BeautifulSoup(markup)- M. S c" i) q* j
comment = soup.b.string
`0 E( E% X$ t4 _comment
! U: Q$ |2 {& T1
0 D, A: C: H5 t. R5 W& B2
; t! n& p7 y+ H& ? L. Z3
3 [5 T5 [* q- c+ E4. `9 v* b5 ^" s# ?: Q; `8 }
'Hey, buddy. Want to buy a used parser?'
: ?/ O$ d6 z7 L0 _; H# k i2 |1
1 M2 H2 q2 f7 htype(comment)5 Z7 x6 r6 E [
1. g' N( X7 c8 ^9 [" @' v- L; N5 S
bs4.element.Comment
) Q; G' b- F1 I9 B1, t* D4 }3 j0 I
Comment 对象是一个特殊类型的 NavigableString 对象:
4 y* H! L# Q/ S) h4 Ccomment
9 }& d) x* W( D! C0 [1& b5 `' }, T; }5 q4 ?
'Hey, buddy. Want to buy a used parser?'
3 ?* b/ f6 c% z* N7 Q# T1: c }/ p) B/ W3 @
但是当它出现在HTML文档中时, Comment 对象会使用特殊的格式输出:( ^, e0 q9 p' x
" v) T6 w [; {0 U- j! [
9 Z2 ]! X, ?6 I; ]0 w9 nprint(soup.prettify())
- i: X% @3 t7 ~* n. x6 T( c t1
7 b" {- O' {$ K; S<html>+ Q1 ]+ E0 R( z) \" |7 [4 e
<body>
: h( d$ I+ `- r4 s$ [% v8 x <b>$ j1 P9 y* ~. l( t6 i2 l3 e
<!--Hey, buddy. Want to buy a used parser?-->
: \6 U l0 Q. { O1 g8 G </b>3 Z+ {+ b& f! I ]
</body>
; s }( Z: q& E( x4 Y8 s4 o' f</html>2 C9 F7 J; f' d$ P; d! K3 P
1
! l! q& N+ r, K1 j, j2
! ]& c! _; Z. }6 z- m3
1 h, q0 q; v! z" o- o4/ Z6 \5 x+ A8 q
5
6 ?) ?5 q E- q* A5 {6
& S% Z8 m* w8 x' S9 P; m7+ H2 W" q! l/ J+ j( B0 \2 {
from bs4 import CData$ ^: C5 g) \- r9 E8 j* [( P
cdata = CData("A CDATA block")3 u3 J& u( q4 T% V; _! }8 |
comment.replace_with(cdata)
: q1 D+ @* ?& Dprint(soup.b.prettify())6 t. {8 z; M1 i. b& v/ c
1
, z- g" G2 \: d" F2% u- X4 X+ |& Y
3
1 L4 a% Q. c1 B4 d+ X4: C% M# _2 m: q& b3 L. ~3 w# I
<b>& y- l* V2 w+ g2 p
<![CDATA[A CDATA block]]>0 g( @' I4 S+ {
</b>( L2 ^' K9 I% ?- {5 N% u) k
13 g* Y2 F0 _: [# R4 h" V- ]& J
2
7 F0 `/ }9 O6 g" L5 A% a39 u% Z1 B/ h( o' C; `0 K
遍历文档树- c3 `6 G! s$ J9 x: J) ?
html_doc = """
) C1 z* I* j1 ?) X1 F* W% T<html><head><title>The Dormouse's story</title></head>1 p: k( H; o4 H4 w p
<body>% G# d* K0 J4 c2 }2 N
<p class="title"><b>The Dormouse's story</b></p>
/ J9 D s+ L# }" D" m& ~4 p! q
8 r5 }9 E% y7 F2 ^" O; c9 x2 ^$ B1 S& W
<p class="story">Once upon a time there were three little sisters; and their names were
; y" g7 h; W$ G% ~$ c7 d<a class="sister" id="link1">Elsie</a>,
9 d( Y% [( d, u7 B1 | m<a class="sister" id="link2">Lacie</a> and
+ o: r) n! j9 C* x: }. L9 i<a class="sister" id="link3">Tillie</a>;
1 n' C! D6 H& I& m s3 Z3 Yand they lived at the bottom of a well.</p>1 e# U/ S! o* b
# D! m6 i0 G1 H) _
8 Z2 z+ o- k4 |7 o& ]) b; j<p class="story">...</p>" R( w9 w% U2 n) t
"""
* u0 A* d6 g3 z1
* B+ \8 y7 W3 h# b7 k2
( ]5 T- I; z$ U6 a$ q; d30 ?' B3 a) E+ e8 T8 c" ^
45 l- U; o# G! s9 h3 I
5+ p/ K7 j* v) x+ j- R- T
6
% Y& \' n0 ^2 y6 u! A$ k2 v7
7 J: D, z9 M4 |5 @8
, \8 e. [) Q- T( L- `' G9
. p) p+ R( v" }( L Z4 V1 H1 d10
: X+ r' }( _. Z. m$ p4 X' H% T11
9 F% e. [6 F$ s V122 p( h8 a5 k+ H" O
13; h: e4 H& e* y# d% I
from bs4 import BeautifulSoup
- j! l$ J* ?, S1
: X, d7 K4 D- d3 Rsoup = BeautifulSoup(html_doc,"html.parser")
z" C/ V5 v, R; `$ m( Z+ i13 {+ f$ A! u1 d' B( ]4 l& U
子节点( o/ S8 O- {9 x1 ]9 F& P l
一个Tag可能包含多个字符串或其它的Tag,这些都是这个Tag的子节点.Beautiful Soup提供了许多操作和遍历子节点的属性.' f, Q0 ~( y' \2 v! S
" A& d- l W. J" q; n6 [1 ^+ }& R+ T
7 g$ R l: M- {0 w" zsoup.head7 ^+ ~3 T) f2 Z: N! n& i
1/ E* S. R# @; x& h9 o4 E
<head><title>The Dormouse's story</title></head>3 q7 N- \, q& E0 }/ g; T
1! ]& o4 R) `- a) m9 e/ Q6 s
soup.title
* w ?- m2 x2 _, t1 b, ~( Y% b' m. B1 E& X. s, ^! ]4 ~. \
<title>The Dormouse's story</title>
8 n3 t; h" m* _% i11 J* h; W, \/ f/ R. u# r
这是个获取tag的小窍门,可以在文档树的tag中多次调用这个方法.下面的代码可以获取标签中的第一个标签:
0 @/ M! o+ u! z. P/ p' S i% V" C$ l0 h: `
1 s. O% g* J. B+ D l9 {5 O0 t* bsoup.body.b
* g: d% B: D E" S1 ~$ t: {1
c- H: i$ ^9 w( Y- k% s<b>The Dormouse's story</b>; y. }8 V' s" e6 F9 J/ E
1
+ o% s$ H) t. P通过点取属性的方式只能获得当前名字的第一个tag:
" ~2 h( {; i; _- n7 Z9 e% B" L- l8 U- `6 m* z m+ D& |
' ^) R1 s% B4 O7 F& v% Gsoup.a
' Y# Y* _! }5 l- L$ e! S# a) W1* S' b4 g' Q$ K+ t! T
<a class="sister" id="link1">Elsie</a>) [: e0 V/ h0 D! C0 Z. F
1
$ M: U5 L& W l/ g; L3 Wfind_all方法
, G" N6 m5 v5 r) p6 I/ i如果想要得到所有的标签,或是通过名字得到比一个tag更多的内容的时候,就需要用到 Searching the tree 中描述的方法,比如: find_all()5 h" U2 o# |3 y; h# f( G& M% U
* ]$ n- y% g& F2 t" J. [7 ]4 J2 ]
% K( P6 J' C8 p) s1 L' Wsoup.find_all("a")! ]# q+ C. j; V) \
1* F$ E: O7 l" y- ~% o) k" _' m9 e5 G; ^
[<a class="sister" id="link1">Elsie</a>,
, Z% H* W& ?5 a <a class="sister" id="link2">Lacie</a>,* z' f. j# _; u$ u- Y- V9 Q
<a class="sister" id="link3">Tillie</a>]
8 `# q8 s+ U& f& I" i7 N( i1
" v/ o+ P2 w% @, I2
+ S' O. \# I$ G3 \2 K7 O3) Y+ S# M6 r. ~5 h* ?6 _+ ?
.contents和.children0 f* @; U! \& h& B" V
head_tag = soup.head
4 J1 _' [4 d, F r( _head_tag
1 j3 c# [; T' u1 _3 O9 D* l% {. s& L" }1
9 r- z+ G; s* h, G2& ~( w# K0 t1 {& }! P+ Q
<head><title>The Dormouse's story</title></head>* B: b/ I5 P+ C" r7 {5 n
1& J% F2 S) x* ~. R) y9 w
head_tag.contents
3 {4 F0 a" k- ^4 j& i16 U6 I6 R/ I& o; E/ j
[<title>The Dormouse's story</title>]
9 B- q7 M/ e0 r, s1
5 l* {: t: J4 Uhead_tag.contents[0]
6 T% Q+ o( D% r: X9 K& q1 H1
$ b4 `6 v( T$ P9 I! A. \, h; J1 A<title>The Dormouse's story</title>0 u4 B3 `* ]2 H9 N
1, N$ z/ ^9 o8 H% u) Z) R: m
head_tag.contents[0].contents
# i& T' Z4 G# u2 V" S, z1
V6 M* m2 o* _2 v2 ?/ f$ p["The Dormouse's story"]- c- u7 S- t3 r; w8 L3 r6 P
19 U4 i1 |7 L) _- q8 r! D, }
selenium9 [# G9 s# x; h( h6 ]2 }, k
. ?$ R+ y7 z1 V# W
1 d7 J' p0 `6 D& _# a' F
b$ @8 M5 g- j" v& Z9 ` v! {! R$ l$ q2 I: y5 W3 i6 i
selenium官方文档 https://www.selenium.dev/selenium/docs/api/py/api.html
3 M+ m3 M# [# @& `
! t! f9 l- J0 ]- V! L$ l5 [/ u- \9 L+ v+ _% S8 S+ q/ v! P
selenium介绍
9 l# x/ p6 o* p5 v. u5 Schrome浏览器的运行效果
" l3 R) p2 V9 B' U5 } _在下载好chromedriver以及安装好selenium模块后,执行下列代码并观察运行的过程
T9 E E6 ?/ C' t$ ~$ A
0 [. q: d! u; L
) t+ D; R6 e6 k8 z$ D& gfrom selenium import webdriver
! |( B3 b3 }7 |. B J9 M
V7 Z( \& F' S1 v+ U' \) X& E1 y+ ^' [# M3 X
# 如果driver没有添加到了环境变量,则需要将driver的绝对路径赋值给executable_path参数
) [9 N6 e; Q0 ~+ w4 Z3 Y# driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')1 e8 t& E. K5 h
' v, ]: o! g0 c
9 h% y2 e- p; e: H4 d( R# 如果driver添加了环境变量则不需要设置executable_path
: G, x# r! E; q$ h) L9 Y8 bdriver = webdriver.Chrome()+ {. |3 H* v7 `& O: i, R
$ `) s# Q& y- t9 _! V: E1 k8 |& m
; v6 C' q. ^- \6 l
# 向一个url发起请求
* Q. ]) \3 H/ t) q8 U6 Mdriver.get("http://www.itcast.cn/")* I2 r/ |1 v" u* `0 m
9 z$ o- B. R4 X( a" Q
- a: \5 d: Q; s# 把网页保存为图片,69版本以上的谷歌浏览器将无法使用截图功能
" Q0 U6 s/ P9 l& X) U; a+ w# driver.save_screenshot("itcast.png")$ Q; ^) j1 h j
8 g. s' l9 b u. l: q* L7 D' X8 E
6 E3 v8 S( N1 A' Uprint(driver.title) # 打印页面的标题
1 L3 L3 @& y0 U
( g" t# K; k) Z7 [4 k: {( C" U& U( R
. A- Q7 t0 j) X/ M# 退出模拟浏览器3 D0 ^+ P1 T! }& j" ?& B
driver.quit() # 一定要退出!不退出会有残留进程!( H% C9 G1 Y* _8 G, T5 b
1* ~% y! u' S k$ G( H
2* T: G, r7 L z% x2 d
3% ~; T; v2 j: i& O1 s/ S5 c4 S
4
( I2 x/ F, [0 d, {5 C! ]5
1 T3 u% r* G8 ^+ p61 |2 a+ U$ }: z6 u* C+ g
72 p+ M+ \9 {- C
8
: t1 ]* F! S6 g4 }* o9
8 }1 k" o( h6 T10
* [6 P8 W! V/ h' w: ^1 F/ P112 N, e; n9 F! B2 }9 C( ]
12: A, i z4 m) A# s% J$ z: F- _+ v
13
7 K a2 t, J+ g: s8 J14
6 A, N' d* B0 B, k15- w5 v. d9 z/ d$ F3 [
16
% O9 J/ k5 i3 [3 H: D& h17# D% C8 h9 I& t2 F$ }% u5 ^, a
18) K# z( ]: p* N9 u1 s. s! r+ C
phantomjs无界面浏览器的运行效果
9 T- s7 V- n2 pPhantomJS 是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript。下载地址:http://phantomjs.org/download.html
( d( A! \: W2 r8 p) c) p
) b' D# r& P( Z+ ?8 `8 v1 `5 q+ s$ S. H+ {) A p
from selenium import webdriver
1 c# P! y3 I8 o. Q) F' ~9 g, J9 A- J/ q
# Z$ V/ e! L: Y U* i) S$ s# 指定driver的绝对路径
1 L2 c( v$ s$ M/ sdriver = webdriver.PhantomJS(executable_path='/home/worker/Desktop/driver/phantomjs') 3 i! N% F8 m* T( n5 n$ ?6 f$ A
# driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver'): g }4 N/ x/ J; O+ x8 j+ H$ @4 R8 V
& P X9 W- Z; C6 a/ O0 X
# {+ m; y/ g6 K( D d% k0 v Z4 a! i# 向一个url发起请求4 t) w# r$ l* e; g+ R8 s
driver.get("http://www.itcast.cn/")
$ E5 A) S7 n* Y# G3 Y& \
/ f+ B- N2 p1 U5 e0 `% n0 \/ E7 D
* O+ Y( n0 ?( i1 b* t# 把网页保存为图片" d2 }& J* P I1 a- o
driver.save_screenshot("itcast.png")& I3 F: r4 T6 s# R" S( ?* a
1 V" V% c9 {% u. S% J
/ r. C* I+ Z7 _: a4 P# 退出模拟浏览器/ R' `3 m) _8 y7 i) k' c
driver.quit() # 一定要退出!不退出会有残留进程!
. I2 `( s5 l) \- H) Y* X# g17 X% V$ n: l% v. k6 ]9 Z# p0 P
2/ b' j3 \) v# ?- N$ n
3 I, _& i8 ~3 [
44 H6 P; r' w4 w9 k) w8 j
5
4 U0 W9 J I' @9 Q- S; ^1 G+ b6
) r# s- V9 V6 ?% G1 L7
: d# g+ @# a9 Z$ D1 Z8
0 u$ ^- V8 }7 q, f6 F1 F# q9
- F" R* a6 z& S1 |! g% O) |8 l10
7 G6 D% r; Z% \2 I5 z* V* N# t11
J+ \+ _2 }1 P9 m1 R5 ^122 ~& W' `. s* D! r0 U9 {
13- u4 F) f" |0 Z* Z% V
14" V/ R* J6 Y) ~1 a3 m
无头浏览器与有头浏览器的使用场景
" V; K! P, v1 d: Q. g1 z. s D; E- K$ S! @4 y
4 s/ g5 d: R) H( k( N# ^
通常在开发过程中我们需要查看运行过程中的各种情况所以通常使用有头浏览器4 }# d+ X& m, g4 X& W
在项目完成进行部署的时候,通常平台采用的系统都是服务器版的操作系统,服务器版的操作系统必须使用无头浏览器才能正常运行
& C0 b( T0 g% @+ Rselenium的作用和工作原理
E) e _; q+ R$ e7 Y利用浏览器原生的API,封装成一套更加面向对象的Selenium WebDriver API,直接操作浏览器页面里的元素,甚至操作浏览器本身(截屏,窗口大小,启动,关闭,安装插件,配置证书之类的)4 @" ]4 }% w6 C' W, F i% u
' I+ |" i' R% ^( E. G0 f' ?
2 P6 o8 H. g9 R8 }8 D
selenium的安装以及简单使用
+ p+ y0 ^& x: D; d8 d2 t+ N; h以edge浏览器为例 参见这个blog哦,驱动chrome浏览器同理% @1 a R6 I% ^6 B
selenium驱动edge浏览器
) k' K$ _8 e4 L- [8 X# T0 ~5 J3 G
, _/ Q. }9 l9 R( C, Q
chromedriver环境的配置2 y- B/ M$ H3 g( P ^2 G$ [: d% u* S
windows环境下需要将 chromedriver.exe 所在的目录设置为path环境变量中的路径
2 d/ k/ k, I) llinux/mac环境下,将 chromedriver 所在的目录设置到系统的PATH环境值中2 [' C2 q: c! n
selenium的简单使用' K- k3 H+ T6 r$ y$ c2 u$ |
接下来我们就通过代码来模拟百度搜索% d3 w5 M9 E! X; S- W8 u7 Q
) G! h5 F# ?' r2 h
% \$ K7 V, U) @+ Dimport time
0 q8 C$ Q: g& \# [; o5 j1 C* Q& }from selenium import webdriver
2 w$ I! P3 X0 y9 h d# h
2 h( T. \0 O$ I, W7 d" ?" y" K2 F/ P' }# T$ Y9 z
# 通过指定chromedriver的路径来实例化driver对象,chromedriver放在当前目录。
i. K( |* S7 ?3 W" B0 u( b# driver = webdriver.Chrome(executable_path='./chromedriver')
4 ^; R8 k3 {0 g f0 v# chromedriver已经添加环境变量$ e M+ T9 o$ J% |9 `* ]
driver = webdriver.Chrome()0 R9 ], ]% n( Y6 C1 B; w
2 ~$ ~) A, P. ^ c. ]/ O
0 Y$ V8 Z0 t8 U& r& W# 控制浏览器访问url地址
1 }" \9 P8 [3 `: D$ kdriver.get("https://www.baidu.com/")+ n; ?* }5 L" d! S
: X. g6 L+ _1 y# Q; j: \: Y+ }4 Q, m
# 在百度搜索框中搜索'python'5 \4 {9 Z9 a- o. L4 r+ K
driver.find_element_by_id('kw').send_keys('python')
/ e r0 F( u# q! c1 [# 点击'百度搜索'! @; Z/ g4 K a% F p/ N) w3 L
driver.find_element_by_id('su').click()
- E! A }0 y, g" c+ {$ f; k) A8 g- |, l# z+ u8 v1 c% H' ^
0 I, ?2 ?" z: R8 Stime.sleep(6)6 n; J5 l* k) j. u. a
# 退出浏览器
1 i3 D" l. l7 J4 [- D) ?7 c2 udriver.quit()
$ V- g) J3 [2 Q' C1
) J/ F7 |5 ?; W7 X$ T0 ]5 [2+ K" ]" ?( m" q \0 Q3 G! ]" P
3
0 O' H5 }) Z& J$ M4- w' A m* B% [; ^! ]
58 ?& ^' }8 z. x& ]
6
9 ~2 }3 K8 V3 h' D/ b9 J7
) s% a; q) y% t( c, _/ L& q83 w7 V1 Q: ?, L* a; M% r& W
9! R! J* Z4 H/ O4 F( }7 H* c& @
10
1 j! l0 ?3 Z" K5 P* U# Q; X11
7 m( x- q7 H( x* u+ ^# X. T12
' A J5 U! Z8 y8 A; T133 d* I; X6 o+ W( [' z
14* r5 L' G7 s& z
15; X% P; G5 v2 A# I: `
16& n4 o& U. Q4 j
17
. D( ], o& M5 t18
0 Q# p" N5 b/ t4 j. T# W19) a7 w! a9 D$ M5 D
webdriver.Chrome(executable_path='./chromedriver')中executable参数指定的是下载好的chromedriver文件的路径
7 R" P% A; }% Y& f; R' o4 m# Pdriver.find_element_by_id('kw').send_keys('python')定位id属性值是’kw’的标签,并向其中输入字符串’python’
3 |% x2 z9 i; ^- ydriver.find_element_by_id('su').click()定位id属性值是su的标签,并点击
& e5 y( ~& ]% Z4 p- Kclick函数作用是:触发标签的js的click事件 g1 x- [7 r: u7 `9 Q
值是’kw’的标签,并向其中输入字符串’python’
2 C$ k3 V c2 N2 e+ ]7 P
0 x# N7 r; u2 C4 n: O
+ H2 B T+ e4 M3 Q6 a! d# Sdriver.find_element_by_id('su').click()定位id属性值是su的标签,并点击
$ b6 b- p# D8 n- K5 O. Dclick函数作用是:触发标签的js的click事件8 W& S+ w" K5 s9 X* x
使用xpath来提取数据,爬取数据的简单语法。5 P- e. j& H( b7 _9 f6 T- S, V
4 @5 B2 k' t: F8 I6 R# L% ^$ m [2 ]$ O2 |! \7 j
lxml
! k! Q% [8 \. H
: m0 R9 t, _* W/ {- K
6 e1 D' X* v* u. e/ y1 B6 C" j1 O: Y& J6 L; `
% A! N% G& S Zrequests官方文档 https://lxml.de/
, q+ _1 s3 u, }0 I1 ]) C+ S
V: J4 X- f, d( l, W( ~% \ F( I$ b) ^
pip install lxml" b" k/ E* y. s7 m( c2 d
1
; M! s2 X6 j0 R+ F+ c( D导入模块
& |6 `4 r/ r# [from lxml import etree
r: `- c7 ~# Z0 y, e18 X* U7 P5 C r8 c9 d( h
利用xpath获取text或者href内容) @' `" r' X8 q M1 T" m+ |
/li/a/@href 这样取的应该是href的内容8 q$ q) [: M E; H! u2 D% `
/li/a/text() 这样取得是text内容
; \$ s# n; w' H8 S; [" F0 }- U1
9 }; X5 `; O6 Z2, w( q! r' `2 W
etree的使用
5 Y' ^/ E+ g; lh=etree.HTML(response.text)#response.text是网页的源码
' a/ W& o8 R# A' rh.xpath('//img') #寻找所有的img结点,
0 L2 w7 D( [% e9 s4 A6 [& X5 @9 Nh.xpath('//div').xpath('.//img')#寻找所有div下的所有img结点" W: ~1 A$ U ]2 L/ M0 P" G
1% ?' x5 Y# ~$ z4 S6 f
27 N9 h' r Y3 v+ y" y% Q0 C7 a4 Y
3
# c! ?" I/ r- _; S! bxpath的语法1 K( b6 {2 i+ S% g7 ^+ U2 u' W
符号
5 F$ i" p3 T* s" u* uXPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。0 f7 c! n4 H& z' S9 l
4 z6 G; N7 X) |8 {8 w
8 `* e$ D5 Z$ m) G- a# T
表达式 描述
: [+ V5 S. D) D# {* x$ d, Q/ 从根节点选取
0 Z7 K6 Q( n7 J7 B+ Q$ b// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
$ V/ a8 b p8 m& n. 选取当前节点。' T6 V8 I5 U& J! z* O8 X
. . 选取当前节点的父节点。9 f9 g' E4 b- N7 m0 _' p5 `" U5 }
@ 选取属性。# H7 { E% f/ i2 s. U9 R- h
| 在两个中结点中选择
5 s6 X0 _# A0 |' S- b7 h* u() 用()来包含|
$ D! U$ l! D" `& b% o6 c* 包含所有元素
6 [, @: P5 p0 G- v2 D4 P# Vnot 取反6 P. P* A+ E; J/ g ~8 Y. Q0 A$ ]: r0 u+ `
实例
( j: z6 |5 Q5 V. L
2 B1 g5 f+ v, O' n% ~2 \
+ y; W' P1 }, o( r( W7 X$ Q9 e路径表达式 结果% l8 k. c$ N+ w" m: B: t
bookstore 选取 bookstore 元素的所有子节点。
; i" | F! H# W" M) K9 G+ z/bookstore 选取根元素 bookstore。注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!; E# i7 W1 ]0 ?3 R0 |% b% A# X; O1 Y
bookstore/book 选取属于 bookstore 的子元素的所有 book 元素。
$ h5 l5 Y: w0 o//book 选取所有 book 子元素,而不管它们在文档中的位置。6 [2 o2 C! [! a e; o
bookstore//book 选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。
, u2 o* g* U4 u1 I0 Y//@lang 选取名为 lang 的所有属性。4 |9 ^+ g8 z0 H( |! y. M$ B ^
//*[@class] 选取带有class属性的所有元素+ v) z+ `( Z! W; `7 s
//div[@*] 匹配任意属性的div元素
; e/ ~. a5 L4 N$ k3 f1 z7 g//a[not(@class)] 匹配没有class属性的a元素
2 e" E9 ^( D$ \谓语3 U" {) v$ A( K* O( b* K2 g! i
带谓语的路径表达式
" M/ k2 N; t' `' u: K$ ?7 }' K* }8 ?7 J# i5 n* b, \) }% q
/ V! W# `5 k, W4 Y% d. y( b
路径表达式 结果+ y7 p) P) T: B# o7 Q
/bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。
4 L# E" e0 Z" O. X5 V/bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。) O' [& C* y( _. I2 b; S
/bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。6 P* v% U/ n8 C3 t# a6 J! j
/bookstore/book[position()< 3] 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。1 h6 U1 t& K' M. N7 l7 Y
//title[@lang] 选取所有拥有名为 lang 的属性的 title 元素。
6 {- C3 g' w0 y9 W9 c X3 T- \//title[@lang=‘eng’] 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。6 a" Y4 Z% Q6 q0 Z3 d2 Q
/bookstore/book[price>35.00] 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
( F2 s @6 Z8 u" \, h0 v& |+ I/bookstore/book[price>35.00]/title 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。
0 _ v; g! j( _3 I2 L# m/ X————————————————
' }! U# [: l+ z' T" h) Q版权声明:本文为CSDN博主「北山啦」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。+ Z; V$ \8 x2 |3 ~
原文链接:https://blog.csdn.net/qq_45176548/article/details/1181870683 e, [: i9 Z) ^4 j" }
! j: o; `& Y9 ?* h, @- I8 P# \% Z- T8 E* h* d3 ~! C, p
|
zan
|