数学建模社区-数学中国

标题: Python爬虫常用库总结 [打印本页]

作者: 杨利霞    时间: 2021-7-8 14:55
标题: Python爬虫常用库总结

- J/ _. D" B  S" W2 H6 EPython爬虫常用库总结
: `) O; h8 H/ e3 h) C% S6 _: n. K文章目录
. ]& F* G' I* J* b; `" ?requests2 g  a  f& X' V8 ^& l7 r* u
requests基础
6 W+ L1 Y& D& n( {requests模块发送get请求& R: p2 v/ X' A6 G/ K8 r# H
response响应对象
2 N9 n9 D7 ?; ^0 S, S3 vresponse.text 和response.content的区别7 g" @9 x: }# I" r( D! P
解决中文乱码
4 a  Q& b7 ^) D# Q/ C  `response响应对象的其它常用属性或方法% u- _: r3 d) @- W) H
requests实操! _* y7 \! \! V3 _+ X* D: K
requests模块发送请求
( n2 ^1 t% C6 V4 W4 a) w8 |发送带参数的请求
' ^" ]: G5 [, C6 k, f超时参数timeout的使用
; |6 u* F3 J, ]) g3 Brequests发送post请求的方法( G) O$ L/ ^( P4 L/ F/ {
BeautifulSoup
* e( F% R4 F( q. D- Y常见解释器的优缺点
+ W4 z5 [4 F5 _# \( F; y常用操作' j/ d: h+ ~; S: T' i
几个简单的浏览结构化数据的方法
8 S, m7 t- u9 m从文档中找到所有的< a>标签的链接- V) u8 G) H1 G  m& t0 C- W+ t" Q
在文档中获取所有的文字内容% j& r; L: X3 H1 K
通过标签和属性获取8 T6 H0 {) ^' Q) @
Name属性  R" L" o0 ~$ L5 z2 P$ ~
多个属性
9 I5 M4 H& p& R2 e8 t; Z; M多值属性
- J* x+ r, b1 [6 Q: }, u3 `  Z) U可以遍历的字符串
1 t0 S. h& y9 V( [7 }注释及特殊字符串
( w) U' y) p9 A6 v) M1 U遍历文档树/ a) U0 C" a1 |0 }& S
子节点
4 Q( t" s# [+ [3 j8 I- o% ^find_all方法& w! O6 N5 y# F+ j- j/ }, V
.contents和.children) S4 l7 G( p0 C. B% K/ c; n  v, r
selenium9 s3 o: x/ w, r$ S. w3 n
selenium介绍
: d. W: d7 R4 E) Zchrome浏览器的运行效果. H1 C' M: l/ j! K
phantomjs无界面浏览器的运行效果
: c0 t" C3 q0 U& l* v' [6 m1 }selenium的作用和工作原理# U" }! R( h% w5 I* S- F( ?% Z
selenium的安装以及简单使用  G' Q% L& h: q, Q  v  b
selenium的简单使用
4 V' g0 Y6 ~8 a4 }6 b0 \lxml
/ Q0 N- v6 R- }5 d% P记得安装快速第三方库,Python经常需要安装第三方库,原始的下载速度很慢,使用国内的镜像就很快啦
& I4 \7 q5 {# D' r- ~$ M# u' @
- I4 N1 }* G9 Z; r6 C' |: _) t- _

. A2 m" ~2 @# g$ l* x$ Wpip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple 包名
. w& V4 }6 l! Q7 J! j) H( w4 u1
+ U% `0 J' P/ I5 b' F  E快速下载模块: O+ Q) H7 O4 u% z

* V) v& ]* C+ X4 A
! i. A1 `- B& L5 Z/ I) C1 `5 }
官方网址:
- a; K! c: t" y0 i+ K% S% E, M  @: s! E  T) I
1 r6 e% W1 B" z& a+ G9 A, [
Requests: 让 HTTP 服务人类4 @$ ~4 Q9 a$ A
Beautiful Soup 4.4.0 文档1 v( j1 P1 P1 N: Q
Selenium官网& k3 k  U2 R9 W. E" k
lxml - XML and HTML with Python
# w. S0 j& U, R- p# M% b( \+ s$ ]requests1 o* v) K% E, K: n
requests官方文档 https://docs.python-requests.org/zh_CN/latest/
8 I) F" j* a) \  @1 l3 q
3 P+ q% [' p9 v

3 ?% g7 [: r# H1 S5 g  a7 V& t
, a. g0 D: d& z5 ^1 o7 L

) q3 d: l+ T) w; Y3 ~1 @( @0 `5 L5 q0 e( ]

2 c) t+ H- {( ]2 u2 y进行爬虫,首先要对网址进行请求,这个时候就要用刀我们的requests模块了。requests是python的一个HTTP客户端库,跟urllib,urllib2类似。与urllib,urllib2相比,requests模块语法更加简单。正如他的官网所说:7 N7 B' ^4 n+ J1 e" I. ~

) d& N2 w* j9 n8 u, ~* v. l

5 |8 A/ e1 C) d- a) r, W. ?5 R. \  |* [+ @( I

. m: ~& A! o  S3 irequests模块介绍
& [  x+ G" S* I& T- k) J% l! H. @+ l0 w; q) N& l1 l" I
2 x( W; W+ u8 s/ ~* |& A7 s$ H+ O& y
发送http请求,获取响应数据4 _8 k2 v/ I6 L/ b* ~+ B0 ]3 A
) v$ ~' `# s# X* K" ~* e) {, A
* F3 R0 |; x$ [* T+ c
requests模块是一个第三方模块,需要在你的python(虚拟)环境中额外安装& W* \& }3 c7 s7 u8 _0 F1 \9 s3 \% T+ n
) R0 e" K: T; c1 m
5 ^$ g( k3 V! U# B/ _7 N6 t
pip/pip3 install requests% P8 ?: Y! U/ w

, J" t7 h0 \9 g9 v
; z; I* I* q% i$ C; D
requests基础& Q: s) F# n% I. }; i9 t
requests模块发送get请求
- G# u: U( N/ J) t% d#https://beishan.blog.csdn.net/% f- T" t& l9 H4 f
import requests
8 |  Q6 d$ N* @9 F# 目标url
4 Y+ H( l8 c, x; d- iurl = 'https://www.baidu.com' $ [4 y& S0 {) }/ F
# 向目标url发送get请求
/ S& R) ^( J# n$ D7 ?3 O: ?- L/ _; lresponse = requests.get(url)
8 j# n- P/ C' P% a& i# a- i# 打印响应内容: I! ~, T) {7 r: i5 M' a
print(response.text)
+ ^* t) Q6 G) v/ O+ T" w3 G1/ M! a( C5 a2 |; `8 M6 V. o
2
) E2 ~! X, O/ v; g9 Y: n0 v) P1 l) N) Y3, f$ b# O2 F  t( E9 j
42 W! d. }+ E  h% I
5
' p* }7 L, X# u% Q. o5 y% M6
1 J* ~& w7 s/ x( [$ H. d$ w7, ?1 _- Z* C$ H0 X3 Y
83 a" ^' [' {5 R% p: @' e9 C
response响应对象
/ k9 Z1 Z+ k& a9 _: N7 ?观察上边代码运行结果发现,有好多乱码;这是因为编解码使用的字符集不同早造成的;我们尝试使用下边的办法来解决中文乱码问题
( j- b% r) e# S; ]6 |# ?- S; i, L/ v4 e( X" D

. C& r0 j: F4 ^: R- E6 w, E7 Timport requests
, t' B) X4 l, `& V8 c4 furl = 'https://www.baidu.com'
. s) H8 p- t3 b- M# 向目标url发送get请求
' z* f+ Z2 _, B8 Yresponse = requests.get(url)$ F/ ~/ E& I% E1 O, c- M! d
# 打印响应内容
9 _+ e( O* U8 A9 ?2 r# print(response.text)- a2 E. E( q8 x  \1 b' O3 c
print(response.content.decode()) # 注意这里!
; T: {% Q& C# ^/ I1
% e9 }' N9 x! w) h" d2
! Q; x6 z" I' `7 }( r3 b30 \2 @4 p" I/ h9 P# y8 m
4$ L7 U9 w* R: N) O: B
5
4 P& w, q1 X0 A. }+ t, v6
) T2 w! o! \0 G' m/ B# O7
9 p% X( y! Z1 l& @' Uresponse.text是requests模块按照chardet模块推测出的编码字符集进行解码的结果2 |; X: {: w5 i3 [1 `) u1 C8 j
网络传输的字符串都是bytes类型的,所以response.text = response.content.decode(‘推测出的编码字符集’)
$ B/ E) r% t& }( k0 V2 W- o我们可以在网页源码中搜索charset,尝试参考该编码字符集,注意存在不准确的情况
- x) |4 Z5 v& M6 Cresponse.text 和response.content的区别3 }5 J! N) C- Z2 f( Y! x& d
response.text
) P! Q; j' C8 r# X3 u类型:str1 Y) W2 @* R3 P& M6 J) o6 m
解码类型: requests模块自动根据HTTP 头部对响应的编码作出有根据的推测,推测的文本编码% S: ]+ Z  e8 ]: Z! i. h
response.content* J5 \, O# x# s4 g& T
类型:bytes
7 @6 P1 K/ w/ T( K8 M% T解码类型: 没有指定
2 H3 ~. U, J* D% X6 _解决中文乱码
  R& z* n1 T& u( A" \: ~- I通过对response.content进行decode,来解决中文乱码
1 o! @: J& F3 B( Q
! x, S  M. n  ^" |
, E) y) H, W* w5 V3 @* h' P
response.content.decode() 默认utf-8# y& f! }. A) `3 x: r, Z
response.content.decode("GBK")
% N: j* t9 r' R; a常见的编码字符集
. l( e% Q1 g# v1 iutf-8
9 M6 @# B3 t% ~! L0 mgbk; \/ m' m! t) v9 j1 X. R
gb2312
7 N+ ?" R9 _3 ~8 yascii (读音:阿斯克码)- R9 F8 [5 }! I3 N$ n
iso-8859-1
; Z/ `5 Q6 l8 u$ a8 uresponse响应对象的其它常用属性或方法
9 V. m  F/ Y; @2 D/ ~- n4 B#https://beishan.blog.csdn.net/
. ^+ {# i5 ]3 o/ x% g# 1.2.3-response其它常用属性
0 S! H' L& {% k0 U: Z+ ximport requests( j: z+ a; L8 t1 p' `+ u. W

. N' T' r2 v; i' B( I* u

  m# c0 i2 p7 X8 t, d0 B# 目标url" D( L9 I4 Z- {9 v# G5 ~  o
url = 'https://www.baidu.com'' o3 _" W5 S4 M
3 r/ O2 ]- ]1 a; H" O8 ?
3 @$ }& C8 S9 }  `8 _5 D2 x, ~
# 向目标url发送get请求
5 v% K4 l4 M# r) s" e9 oresponse = requests.get(url)  V, a5 d" W0 H& g
( _& r5 z1 g# M) T, b& \  j

: [- P; t# }# Q; Z# 打印响应内容) a6 P1 A5 J# f. e1 A4 X
# print(response.text)
( o, x9 t5 S! k2 n: J# print(response.content.decode())                         # 注意这里!
2 d4 ~/ W, K6 ~0 w% B/ b! pprint(response.url)                                                        # 打印响应的url
- u& z  Y' p( ?. R) K% ?2 H, oprint(response.status_code)                                        # 打印响应的状态码7 G3 @: z2 h& h
print(response.request.headers)                                # 打印响应对象的请求头
& P5 G- C  c: }/ mprint(response.headers)                                                # 打印响应头
9 \* n' J5 n7 l& ?" L" ]print(response.request._cookies)                        # 打印请求携带的cookies
, K' [, n$ J8 L7 k" y6 u, v- Pprint(response.cookies)                                                # 打印响应中携带的cookies
. m' _: i( c$ R! O5 {5 O2 {6 \3 s1
$ a% {  F$ z, x% r8 y" `2$ L8 O+ U( a, V8 A
3
; H3 Z  [9 B) r+ i46 Q0 W) D  j  U7 U3 R) [
5
/ T  p' k  h2 Q8 d$ i6
; _+ L& l: K9 X9 w6 t7
+ P5 ~& U: E' @# n% ?. O, t8 S' @& q7 g8
. s+ |( j8 `# d2 P2 i# t5 M9
/ f, M( T! @# O9 k4 J; Z7 D7 ?10' O- O: |. \" O  t7 Y; A
11
+ s0 f5 C9 ?1 [3 b7 E12
8 h; H1 N1 M* E% I7 U" ]2 Z13
- j2 I8 l  W% Q$ R  \; L/ x14! u0 o; z5 X( F1 h' c0 Z; n
15
8 b6 D; O  |" X" {; n7 I7 Y16
& M& M% R# I( w9 X17
' B6 S' L- R3 w2 j, n2 X' Y3 B18
3 c# w3 l. o1 f' j/ C7 m% s% J, t19; G4 ~0 [  T4 I
requests实操3 Q: I3 d$ T+ T% h; D' M# ~
requests模块发送请求( n9 L# X" L3 z: R0 M, V
发送带header的请求7 y. d2 u* b3 k
6 Z- J( B& a3 U: v( d
8 S9 d, O. `+ S$ v+ T/ z/ ^
我们先写一个获取百度首页的代码
; ]! M& D) @& s( m* e$ J2 a8 K5 x  z, ~' c, _
" w$ y! g# p/ K6 w+ j1 ^9 I
import requests: \/ Q- J, `% p5 g* ~2 e0 U
url = 'https://www.baidu.com'
, `* f7 u/ ?+ |response = requests.get(url)% H' B8 |1 [. i# Y
print(response.content.decode())
( s/ T; F2 ~$ _6 H# 打印响应对应请求的请求头信息
3 ?7 I7 I$ G2 q1 }3 a. hprint(response.request.headers)
: _) T/ `7 @0 V+ N3 z1# A: v1 Y9 F5 U5 ^3 r/ r
2+ J  k) ]0 q; M5 E9 L5 b
3
" }0 Z/ M: I' p6 W& W: z4 A" O4
6 |- E& `# ], L5/ P: U# a/ R$ Z" k: v  B2 Z$ n8 P
6
3 A7 r1 s8 m4 z' @: M/ }1 P+ K从浏览器中复制User-Agent,构造headers字典;完成下面的代码后,运行代码查看结果# ?: x5 }1 p# l& E) N( j; v
3 X; c% W* E5 z, w6 K

* g8 z7 _+ Q/ C8 }! R8 l' wimport requests
% F6 D2 n' K: \9 b* m+ |# [# B) I# _1 {
( z9 j9 D2 q' A- k- G: O2 z

3 A* S* W' D7 I7 T* v( ~, Lurl = 'https://www.baidu.com'3 R; G; r' a& n6 S* n" O3 d/ C
% F2 Y$ V1 Q9 v2 d

: G) G$ v. u9 c5 D& Pheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}2 a( ^, A7 ]1 J0 M/ h) Z4 p
! Z& D+ D( A  _5 g" D$ h

$ k' u' d+ ]* l4 L# }# 在请求头中带上User-Agent,模拟浏览器发送请求0 [% p# }9 r: w/ Q9 P; O! J
response = requests.get(url, headers=headers)
- v2 I+ T, M5 F( n: R' c0 t
0 y' Z; K# p% x, l- o

( v$ J! s. ?6 b8 nprint(response.content)# r1 X1 [6 u2 b2 W6 B2 Y& P
! [. o6 E- T% `, N. L- y" S

, O+ c, E) h5 M& l5 G9 \4 V# 打印请求头信息
$ A1 c* x7 S' I: v9 q/ a9 Jprint(response.request.headers)
( T  V4 r2 E. K  ?5 I1
8 c2 x# U( {( q- g1 N& h) a  J2' z, u5 v' Z, T. o" J: s9 c) A( h
3, b) w7 k& e8 T
4' n+ I: c/ q# U8 X% D  A5 e) Z
56 c7 z4 o5 E* G4 t# X4 i
6
4 Z+ C5 Z2 c0 M7/ @2 k' C2 A- ]5 v! }9 P" @
8( k7 B5 O" J4 P5 h
9
8 \) g7 M2 c' x& G- H$ x. J  x0 O10
+ @0 H3 c" R( y+ Q" J& f11  e: n9 R  o" t+ r2 c2 }' ?! D( i
12
0 {" I9 X: v  T: ]) N, T13, N8 y0 d: L& V- l: y. B. x
发送带参数的请求
, l8 F5 e, Q9 D我们在使用百度搜索的时候经常发现url地址中会有一个 ?,那么该问号后边的就是请求参数,又叫做查询字符串9 D8 ?5 N) v3 `8 u' k# Q

; m. I+ Y5 p$ s- q$ `

/ g# h# m5 ]. d: x) S; M; a在url携带参数,直接对含有参数的url发起请求% M) T4 d' H( \

4 k% H) l1 H1 C& I$ {8 ~
, k% g" C! f0 _4 D- Y: \
import requests
8 V0 f# A$ ^9 ~
2 n9 ], g- o4 C( l

* X$ l" m* w9 ^, u& \+ p7 w' zheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}+ h8 Y- T- p. ~, l: p: `5 ]8 k" n
) W0 V* O2 w4 m) L# v& B8 C

* u- n! G4 ], H( c0 r2 j# kurl = 'https://www.baidu.com/s?wd=python'* B/ f) G& R. Z: a
( v: s1 M  f, Z9 m1 x

2 k  n, N7 w9 W- i9 X# Uresponse = requests.get(url, headers=headers)- }; p  Z. Q4 p& Z) r$ L, Q

! R  N& y! R# C  T) G
# _3 g! ?- ^! Q# E
19 s! f) P: B6 P  X
2
2 U% @# u# F! ^8 O6 f3* X4 o* ^0 s6 R6 X
4
" F4 b8 V; @/ C" x) |7 Z51 z8 K" `: L, {: \4 }
6
1 g9 D( r( \7 ^7 Z) G( W1 J5 {7
) s& y/ l% m5 J4 t8
+ ^8 q) p& p. ^+ n$ {4 j通过params携带参数字典- [% l* h* w  S" t4 T$ W
" w$ @9 l$ D5 X# e0 P- v# }
. }0 S5 H6 B! `7 w  U
​ 1.构建请求参数字典
# Y) m/ e( Z6 ~& S' E4 z& o: F
* N+ X! \9 I: y; U. p, p
' }. V2 u* F! Q4 }
​ 2.向接口发送请求的时候带上参数字典,参数字典设置给params8 W1 E8 C6 h2 U! q5 D7 v
1 c/ _5 E/ l! X. v

& V; G& J4 W% i5 B% mimport requests  ^; m# s! `5 n+ n( {5 G
$ Q) \' f$ d0 V/ X: s3 ?. u

" p1 v1 p5 [' j* y5 y$ Y/ Dheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
7 L5 K' U+ L% u% o% _
6 F8 }4 D6 E& z
5 t+ o4 W% G; e/ T0 g- l4 j, I
# 这是目标url
' M/ V5 N( ]$ d1 T, q# url = 'https://www.baidu.com/s?wd=python'+ Z* u" W  t8 e$ |
, K8 N6 J& p/ ^- O( u/ y

+ f4 p1 Z/ U' O. @# 最后有没有问号结果都一样$ a! y( J! ~. M9 |/ C5 l, y
url = 'https://www.baidu.com/s?'. X* d8 V, E* H! U+ I* g7 L

) S3 ]$ x- W1 h  I
$ U3 b3 D: f# w8 p6 e- s
# 请求参数是一个字典 即wd=python
* D* B6 z: ~4 a* V: Akw = {'wd': 'python'}; l; o% o: O* J$ G- Q* w' \

  v- G8 T9 k% Y, X4 Y6 {3 F& p

7 @; D5 j7 s) n" ?) O7 E* B# 带上请求参数发起请求,获取响应# q( ?7 @9 V7 u1 D
response = requests.get(url, headers=headers, params=kw)
% k$ a/ I8 M! r3 l$ ^. T2 s! H* `" d$ E" k) U  p# G' Y* ]" b

3 o" R1 S2 w; v$ ^print(response.content)
4 _1 e/ h1 K8 ]9 v/ Z. V13 {, Y% v7 h6 \( F
2
* ]  j& Z  O- X- E  p3) B5 j" C# v* t9 }
4
) E8 G2 G; m& c3 T+ L50 |5 i1 [$ E  m  D, v& p& u
6
+ ?- G0 I, w8 W7
- E* _! o2 Q, K( y8 ]8
! q  s" V* n8 [3 q1 j; K3 n4 K9$ q4 u4 ?: Z- z1 a$ {4 F" K3 S4 {
106 l" V5 l6 K/ s3 C' \7 f! d2 H6 b
11
( n# k. G6 b  H1 S12
" D/ Q/ C9 i+ H- G: D( s& c" y  J135 p1 }  h/ |& X9 `& {. ?
143 ^' f' ]6 K5 L7 Z3 O
158 u- T/ X$ x/ ^
161 v' _+ T& o/ O9 R& s
178 c; V. c! |) o3 N) q. W
从浏览器中复制User-Agent和Cookie' R! S6 k: Z% y, D2 @3 [
浏览器中的请求头字段和值与headers参数中必须一致
: y* Q* G. }7 }6 B6 yheaders请求参数字典中的Cookie键对应的值是字符串
/ y$ g) K1 r& ~, Y- U8 S! X* y7 oimport requests
/ A0 H% D; W6 r! I( `0 e% A/ ~( [  G1 }, e' Q+ Z8 b: \1 O

3 [5 y: i5 F( M; hurl = 'https://github.com/USER_NAME'
4 [9 E/ p5 U5 T$ H: U, `, U; l% p$ A" i

- P2 }" d' M/ M; }' E, o# 构造请求头字典# X' ?' p- W0 z7 r5 ~2 L% C- O) `% _, G
headers = {
7 x) D- J% p0 K    # 从浏览器中复制过来的User-Agent. V: f4 P6 `* x1 ]" k1 O. ^
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36',3 P- n# i0 ^+ K- n
    # 从浏览器中复制过来的Cookie
4 P+ l$ V. ~3 [) o    'Cookie': 'xxx这里是复制过来的cookie字符串'
& X2 v3 a9 F4 ?% `}: g9 v8 F* J; d
& n, a) n6 `  C+ N, I

, k# w) ^: n. k; X) n# 请求头参数字典中携带cookie字符串
+ j9 p9 P3 g5 M) @. xresp = requests.get(url, headers=headers)
, ~& ~: L2 ~# m7 `- s5 u! k3 d' I1 I" ?& [- d# C5 R; k

- v- R: L; I! Oprint(resp.text)) j3 R; l7 a+ b. h  c1 {! O
1# a  `0 T1 h- }6 `6 L. U
2
* _2 {3 D" U1 G7 K/ L9 h3( A5 l; h; g1 U/ \9 C
4# V/ w3 G* {0 I
5
) s% `+ v, @7 |: n/ s* g60 U" K0 b3 f( J7 }
71 l* d9 f! }# L* O& M5 {1 V
8: H( q1 t3 J" }. M7 c5 R
9* \7 ]- H0 W5 P1 H8 y& A* s
10
7 n4 N# G6 F5 k# G) W11
( @& h1 w7 K$ v5 T  `: x12% H! p' l4 v4 K& i. ]) L
13
2 @3 c- o' R1 z' ?# r: ~' \) l- Y142 o  h* Y# }0 X* k
15: ^/ j. s1 G$ z- K! G  h3 V
163 D. F* A! E& P: w
超时参数timeout的使用
3 c8 B) g8 S( g/ o) D. W在平时网上冲浪的过程中,我们经常会遇到网络波动,这个时候,一个请求等了很久可能任然没有结果。, f, x# b$ P! Y' E3 ^% X" X

! n( l2 j9 B4 U$ |8 j# m1 s: O
5 J$ s1 b$ o; Y% }9 Y" E" _* q
在爬虫中,一个请求很久没有结果,就会让整个项目的效率变得非常低,这个时候我们就需要对请求进行强制要求,让他必须在特定的时间内返回结果,否则就报错。
$ x7 u7 z) l5 n. g! |' p$ e' U+ R# @% K& ^. l6 _/ [

3 q+ n  n& I. g2 L( K/ k9 j超时参数timeout的使用方法1 P8 v) c2 u% H; m
( A! P7 i' z4 z9 k3 D9 |

4 Q. y8 z: z' m! L5 Dresponse = requests.get(url, timeout=3)0 |/ c6 k( k# y! z0 q; O

4 {6 v0 K9 Y$ u* I
! B7 H  g- q/ x/ N  Y
timeout=3表示:发送请求后,3秒钟内返回响应,否则就抛出异常
, S! \  M/ ~0 L8 Y! G' o& y8 L* M! U
3 J4 |# T  a+ ]- y+ [
import requests  R1 L/ c) K  n  \* `- _9 |

4 H" T, \4 H8 u- E+ ~/ g3 ~
2 H- w7 b# a3 l; h

* [$ W0 p! Z  C# }: x5 }
) g1 `+ b2 P8 \- u1 @- g; E( ~
url = 'https://twitter.com', Z6 W/ T, D3 X! S* x) D7 J: g
response = requests.get(url, timeout=3)     # 设置超时时间
" V" r% N3 n9 \& @
- V9 a6 ~6 a3 l' G

1 R2 K) h9 ?  ]& T* n7 F$ b1
6 b+ x) e1 U* p; j2$ g, F4 d. F, l! P2 D- c9 @, a0 Q* x
3
) e" U* d5 f( D* h' ?" Y4
& `7 J2 r1 [3 L$ a0 @/ l6 |5
7 p; d: a& U1 b/ i6 v5 d6
- a; t' D6 b) p+ l. w% D# srequests发送post请求的方法
$ \& c/ N; @7 X' g) Wresponse = requests.post(url, data)
1 `, Z6 o7 @7 V% s' \
0 i6 j4 I' M/ Z, j! E

' f0 q$ j8 v( Rdata参数接收一个字典$ z' ~. x& j  x( U! ?( z, h- h& U4 U

# x) D4 a2 |5 h! E& }' u+ w% \
* @) j# {* w, X
requests模块发送post请求函数的其它参数和发送get请求的参数完全一致: Q  J6 l# N# Q3 v6 P
$ @: l5 h- y, d* [! G+ E! L) f1 s
% B( m- G, b' ]$ L
BeautifulSoup3 e7 ]% B# `8 V) ]1 ?3 k
BeautifulSoup官方文档 https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/* X! v; j7 f  Q% P8 D. A
2 x2 b( l0 i& t' a) v6 y
9 A& h9 R! C& [4 p+ w) G
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.9 G/ T, p- D3 g

- K1 |! H0 |+ a; }6 Q/ \
( u- D2 M& ?7 n/ ]
# Y7 A+ d7 V) ~. I

  l! u0 {! u7 h9 o8 C
8 f1 D, b/ p. n1 |6 D  d6 |
! \+ X1 Z4 H. X
文章目录" y6 ~" u7 X( g
requests
! Q+ R9 I8 C9 ]) [7 O. k9 h1 V6 Vrequests基础0 [7 Y/ w9 J8 N" e3 Q  W
requests模块发送get请求5 H: ?, _& \3 m# B, n( \8 z
response响应对象) n) a4 _# Y) w6 M+ X
response.text 和response.content的区别0 s  L& J& _/ K
解决中文乱码4 S* F, d, O1 g6 l% X: |+ _
response响应对象的其它常用属性或方法
" S! y5 S5 _9 Wrequests实操
* G6 F/ f( j, N; rrequests模块发送请求* D7 x- G4 C6 X; d4 E
发送带参数的请求+ C+ r' G* w% Q% Z2 \4 G) `/ e
超时参数timeout的使用  Q& A$ N' a" V1 A3 x1 j
requests发送post请求的方法
# m' W8 i8 {' A, hBeautifulSoup6 N8 V& Y* L" N& }; z
常见解释器的优缺点* f" T7 H$ u4 f) d0 C; s
常用操作
6 _  B$ l- g% `: n" |3 i几个简单的浏览结构化数据的方法
, V% h$ c7 g4 u从文档中找到所有的< a>标签的链接. [8 b" l, i: _% m+ ]9 R# s% J  I$ I
在文档中获取所有的文字内容
; M! @- t8 O% K' o& ~# i通过标签和属性获取( e4 z, C" F+ `7 R
Name属性9 s/ T: Z, w% w2 L  i" _4 G
多个属性  s0 ?5 {* [  I
多值属性8 o  _9 x" K( c, G; }
可以遍历的字符串
& ^+ f4 T0 ~& k' J* u9 ]$ f注释及特殊字符串/ W7 }+ h) I7 K2 W9 J1 |
遍历文档树
* M3 a: ?, z+ p3 \7 B1 L# s; a子节点
7 x, f' N8 P% G. ]9 Qfind_all方法% o; v, s) ?, K( i" i9 `  F
.contents和.children
6 E+ i% a4 u- A) {  `# E( r* I/ k% uselenium
( K$ w. v. |* X' W; Bselenium介绍+ e9 [) H% z- V6 Z0 |& w
chrome浏览器的运行效果' |  T3 o  Y% L* J
phantomjs无界面浏览器的运行效果1 M7 I1 l5 G. F6 ]/ N5 t) N
selenium的作用和工作原理
0 T# L* F3 m- _' Z9 I5 C% D8 Nselenium的安装以及简单使用$ Y+ ]2 e  j. k' B  s/ L
selenium的简单使用, i4 t' p9 y5 z8 Z) e
lxml- c0 V/ Y/ B( ]. g. }! c
常见解释器的优缺点/ P- F6 ^2 ]; a
( p, Z/ {! Y1 Q$ E2 ?

# P% \3 ^- E$ _4 b4 D; m0 |# q+ x7 o" `6 K% Z1 u- @

  d3 C4 c: f8 C. Y- g; H7 V( a常用操作* N1 g/ L3 m' i) J* H
安装方法
% V7 v' m- X; m' M
3 q- Q2 C# D5 y
. l! a6 y" J3 D
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple beautifulsoup4  4 w+ x2 E3 S2 W4 a8 n" B
1
4 l, @9 o: a& M/ ^  L' Q导入即可3 i# M4 D( s, C, b, \

( z4 {0 l. |, I& y5 S  m5 s
& ], T  B0 ~# M) {
from bs4 import BeautifulSoup- _6 B* O; t# f. H, ~2 y9 T" N
1( v# N* g: n5 j9 `7 L
html_doc = """2 X4 f+ a3 H* l* a8 y- P
<html><head><title>The Dormouse's story</title></head>
( D4 d* a  h! d5 F: N% h<body>
/ q2 g: x" B( |9 ]9 ^: A<p class="title"><b>The Dormouse's story</b></p>5 [1 J# j/ P4 w

# X/ _& V1 Y) J) f
' _9 |4 Z" `( L! I
<p class="story">Once upon a time there were three little sisters; and their names were- a0 K5 X$ q" z
<a  class="sister" id="link1">Elsie</a>,
, q. g/ m1 V: v<a  class="sister" id="link2">Lacie</a> and
) \0 M' j% ?3 B( T  z0 Y( s& q1 n<a  class="sister" id="link3">Tillie</a>;
9 l+ P2 l9 Y. v8 q' T/ V, \and they lived at the bottom of a well.</p>9 W6 i. D4 Y! I7 \  H5 D6 K8 |
/ ?. E: |: ?7 h; K' m7 ?
- z- u# _6 n( j1 i- R, x$ _
<p class="story">...</p># a3 M1 \( m* I3 e0 X. O: e  ^: z
"""  ]9 v# A! Y( y$ w# q! m+ U
1
6 b( ]. a: F* |) d* B# I2
$ M" J: B3 R4 I; m: \% B3/ v9 h; c4 ?( q4 S
4
) h3 A5 W. g, F" W5* n! r% ?8 B8 L+ l9 C
6
, f% G7 S" r, j% g  i% l/ z- O* `9 a7  O  t% s2 J& I5 M8 E- X# r( L
85 }9 {+ ~& ?/ l
96 ]! G& @7 E8 V0 w" o4 c  D4 Z8 N
10  ]: s8 G/ {0 p8 v$ u/ l
11# |- u. i1 h# ]# d/ }+ o
12
, x7 m! F! U8 U  d! O; f13# K5 r$ |* |) e* s+ I  `+ H4 |
soup = BeautifulSoup(html_doc,"lxml")
+ ?7 S* ^* o) S, t: d11 @; ~; ^: P9 a* P$ @" v
几个简单的浏览结构化数据的方法3 s* ^1 v) u; X1 c5 _
soup.title
# q7 k& S' i( t% \6 y7 Y1
0 L) s7 `3 s# n* `' w. B8 R<title>The Dormouse's story</title>
- W8 I/ r0 N$ E- v7 y! G1: N$ W- s/ [- G4 _. O4 A7 ~4 X* q
soup.title.name
1 W, g; P2 J8 c% {. A1. o( j& t/ J$ _) k" i# ?3 n
'title'+ M( s, C! j$ |- h% B
1
9 E3 |$ K0 i! w) Z, `, ^! qsoup.title.string/ A, q7 f% r! _2 B
1# b! t/ l* Q1 `1 Y
"The Dormouse's story"6 K: _! [, W- U' X8 Y
1
5 t0 r( @  R, d! H8 Osoup.title.text
" G5 a6 }7 N3 ]# V1# f, C5 u5 y% R' I# G
"The Dormouse's story"; I9 h1 N5 t. R5 \3 v
13 s7 h$ q7 M; `% V) u7 q( j
soup.title.parent.name% x+ Z' F) X6 t
1' w$ o$ i6 u; `7 m) `* o% ]4 T) q% U
'head'* b& }# f1 H8 K+ `
1
' e- _  Q  E5 p5 C; V! rsoup.p; S3 \- p2 i3 w& h- R* {2 K
16 s( r8 f" F3 j5 ]7 v
<p class="title"><b>The Dormouse's story</b></p>' R& S3 z& \* h) c) h
1
) F( U" q5 l( _( X2 M- `/ @soup.p.name5 n! g0 w# _$ f
1; m6 s9 S8 ~( K8 N. x5 J* A8 [
'p'& [# V& X+ B3 Z
1
/ H! {( h$ n0 D; A" T$ j3 jsoup.p["class"]# O2 J( U4 a7 ~" u
1
- d) e  H# x! Q( [['title']# v. V- N8 B" T+ {  t! y  K; l0 O
1' H: P" g# Z( d' b6 l! A9 x
soup.a& }# L* C* y8 P4 d4 B. b+ `: b- s
1
# d- f& ~+ O) C" R9 k<a class="sister"  id="link1">Elsie</a>5 J& ?9 ?, [) Q; }8 u  L& P
1* X% ^4 K! T1 ]
soup.find("a"). W. m% y3 z* _# q$ Y
1( c- G2 b# u7 J; F5 m
<a class="sister"  id="link1">Elsie</a>8 V7 r3 c  x- ]7 J: i( V
1
' ?# P; }, ^7 B( h; C2 H, Nsoup.find_all("a")* W, S% z2 ~0 M/ O9 E: ^9 m9 X* W
1
# V9 p/ |! S, A* ~4 |5 I[<a class="sister"  id="link1">Elsie</a>,. d4 ~5 b& J" @7 b/ d  C
<a class="sister"  id="link2">Lacie</a>,
$ r8 N7 F9 ]7 g5 M2 m- J <a class="sister"  id="link3">Tillie</a>]
- \0 w- B9 g; w6 ?+ \1
8 M3 r+ \$ e5 [( y1 G. v: z) j- G2
% t- \8 @% @6 k  {# ?+ p2 g3
+ R) ^( W6 V. B* ]( P4 x; [& i从文档中找到所有的< a>标签的链接
, x* W, x0 r* Ifor link in soup.find_all("a"):
: r2 b) S+ l; X. _    print(link.get("href"))
; N4 D. W# E; Q' v1
4 S6 A$ N6 K% o5 u. J2 G2
$ H7 c# y* Y2 I  Y; {. thttp://example.com/elsie
' a7 q1 W& V# o! @2 l4 vhttp://example.com/lacie
7 L8 T9 N/ g3 t% R5 ghttp://example.com/tillie
  X4 a2 S- x9 d; c% U1
( k* M% k/ ]+ T( A. c26 c, A. l# Y! j5 _  }: y/ o1 L; c$ G
3' j- k: s7 {. Q% r1 y4 n! X
在文档中获取所有的文字内容$ o  q/ J; T0 Q
print(soup.get_text())
" Z  M( s- m! l/ Y: g2 L$ f1/ t/ y8 s3 d! k& d, a
The Dormouse's story% y0 u6 C% R( Q: ]  E& p) h# c- C/ p* h

9 i0 h& v* |+ E. a" ]3 a. L
5 @9 C2 u! h1 V: [' f
The Dormouse's story0 O, }. E8 l* }& s
Once upon a time there were three little sisters; and their names were
+ U$ @# C$ |+ A) O6 eElsie,
% w4 [0 e/ h3 c4 d+ n" ELacie and
6 Y6 M) M* W" {- [! y" q& \0 H8 ^Tillie;# a5 P6 X# M. R$ Q3 Z- l
and they lived at the bottom of a well.
% X1 v& L& m3 f( M- o...# M+ w8 r" l/ G
1
, X3 J. F* g& r# {* L5 P. Q+ O2
+ _. [& T& x# d) t4 ]: f, W3$ Z  H$ {% ^2 A. N& U% P
4
, K; c: `/ q5 K' `, V- v" s5
& D/ s) O% t: D/ s7 p- j* r6* g. R, |" T! L8 z, O2 I0 A
7. B# j) j9 b* ?) X6 m
8$ A5 M& y6 I, x# l
9
6 J3 k( L0 j8 D* g- f
# w6 j2 H4 j& X. x6 X
# c9 o$ V  y7 z4 ~+ \. C
& m8 J. o8 S9 F6 P; m& ^9 J: `4 N9 R7 Y
通过标签和属性获取
) f2 `. F4 p, b0 ^/ ^Tag有很多方法和属性,在 遍历文档树 和 搜索文档树 中有详细解释.现在介绍一下tag中最重要的属性: name和attributes
/ m% N. k  w* n$ Z: t, C/ l( Zsoup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
! V/ Z: a" K- W5 c1 p( }tag  = soup.b
" v) I& P  g% dtag6 [  `) C& ~" E) A: d% a
1  N5 y' ?. c' {4 V. m
2
; D2 |$ N1 W3 t3 Z* O3
: d: V$ x$ @0 e3 G) ]<b class="boldest">Extremely bold</b>
, B, O3 {: X/ c) X8 @1" _' q; l: V" @2 t& Y! \
type(tag); t1 R* k) z- X
1  Q3 _. A4 D+ G' O- Q9 ?
bs4.element.Tag3 ~+ M6 i! K0 z
1% ]* F2 l8 B" M  Z. d$ H9 C
Name属性
2 l+ x: }; Z1 V: j' W每个tag都有自己的名字,通过 .name 来获取:+ c: e9 L! M" ?4 D2 @" F$ {8 M
tag.name4 x4 t4 Q7 ], k8 z
18 e$ f& x' ]7 h$ r, [# c
'b') T) f# ]  X! v/ C. @! l/ M' t
19 M+ l4 h5 @+ V
如果改变了tag的name,那将影响所有通过当前Beautiful Soup对象生成的HTML文档( ?5 y4 H& o  j6 r8 a$ K3 z: b8 ~
tag.name = "blockquote"
9 k5 t% v3 E  W: j* |3 ytag! o8 T/ R" `) e5 O* m, ]( \7 t
1$ i. ]: \5 d) k. e* t
2
' B. \8 ~* Z* k& c5 o5 A4 U<blockquote class="boldest">Extremely bold</blockquote>
! ^6 V6 r4 D& H4 a* [3 w: t& s9 j% U1
# `# H1 O* Z% W& @- D+ `多个属性0 A8 C. s! h+ W# v" \
一个tag可能有很多个属性.tag 有一个 “class” 的属性,值为 “boldest” . tag的属性的操作方法与字典相同:6 w# v* [* U% N4 C$ f
tag["class"]
8 k" B* c6 {( p1  D& I/ u2 ]* O5 ]
['boldest']- q. e5 s' q1 Y0 @/ g# z
1
  p" c# H/ x# S' y( Y2 ktag.attrs" {/ y+ j0 u0 i% l  f' T
18 i' B4 z- x  b* \
{'class': ['boldest']}
" K4 U- Q. c& u0 ^% p6 I; s1$ S/ E4 e4 j* w9 h2 n# v7 Y
tag的属性可以被添加,删除或修改. 再说一次, tag的属性操作方法与字典一样, I) ?" T* o  r' V
tag["class"] = "verybold"/ i! i$ j3 @' V0 h/ {4 ^
tag["id"] = 1
5 j, }+ t$ R. k* \: Ntag
* Z$ d# f  E) S. V1 b1
: `: f8 J* Z2 o( l( V2
3 g6 c  S8 L# L1 R6 Z6 c3
  X  c0 D( r7 |$ d8 f% x! C<blockquote class="verybold" id="1">Extremely bold</blockquote>- p) A5 G  G/ W5 e0 w- a9 J
1) d; |' I  Z, O4 o; I0 V
del tag["class"]% A( s+ W/ t/ p: s& c' G
tag
2 P! ~, x/ C1 k- H1, p1 J% R' ]! P1 ]0 a6 I
2
6 S6 q- h- x1 W& {<blockquote id="1">Extremely bold</blockquote>$ a9 [( z6 X$ z* \  ]
1# A' _6 v3 Y' {( g: v0 h8 Y1 @
多值属性
0 G9 D+ m# T5 g8 N2 Q, Fcss_soup = BeautifulSoup('<p class="body strikeout"></p>')% N! p0 I% a: ^, ?* L
css_soup.p['class']& }2 q0 v6 i* z, B3 p
1' w: l- k% s0 u. q: l1 Z
2
; j8 c3 U5 ~5 w  T' f, w['body', 'strikeout']
+ D: G% Z0 V) B" x+ L+ ?/ I1
5 }' ]; q1 Q% N' p5 {css_soup = BeautifulSoup('<p class="body"></p>')
& w  S4 [5 s" q0 V  y( Scss_soup.p['class']7 F/ I) a1 O2 o; X% x+ n" |
1& y/ o6 z1 W% ~9 r# X1 n
2
9 e- N: L$ i# }& f7 I& f['body']
  B; |' T) L: S$ S" @. ?1
4 k! h  z& _3 h$ X* v7 p3 f8 L可以遍历的字符串9 m0 \+ l" z. a( r
字符串常被包含在tag内.Beautiful Soup用 NavigableString 类来包装tag中的字符串:6 e7 T1 a: H! W: M8 [* P# }1 |
tag.string5 q" [$ g+ o! X$ `* |# D! H8 z$ I7 l
1
+ r" t( _# t8 x'Extremely bold'
4 O# R0 Q5 e# c+ [0 M. x1
  ^/ F6 L0 L$ Stype(tag.string)
/ R+ c. a2 D  I) {& [1+ w( D2 {% L7 `6 N
bs4.element.NavigableString; R% H' ^& p1 ^& Y  K1 j# |
1/ j' [  o+ F$ P% _# e
一个 NavigableString 字符串与Python中的Unicode字符串相同,
. w* ?, h7 w0 L: L& z# f并且还支持包含在遍历文档树 和 搜索文档树 中的一些特性.4 y  I1 A& a* i3 r- |+ r( h2 O
通过 unicode() 方法可以直接将 NavigableString 对象转换成Unicode字符串:+ F' e) I* M, N" P7 [! @- u7 K# E
6 [) O) c( }& J& L' X+ V7 i- k
5 A8 Z* {1 H# g' z2 T# a
tag中包含的字符串不能编辑,但是可以被替换成其他的字符串,用replace_with()方法
$ M. n9 ~  V. I
  A1 u4 e5 p9 O5 G8 ~. j
0 r  A! r- y  U$ k. l& U* n3 J
tag.string.replace_with("No longer bold"); f, K/ q7 U( c5 m
tag, y' w! L: K9 A3 |: _
1
. _5 B* L4 ^5 q. E5 C20 w8 V- |+ V! a& J1 \
<blockquote id="1">No longer bold</blockquote>
$ y! v' l" _2 u6 e7 x1/ k- g* Y5 N) N' k
注释及特殊字符串9 G  {; J- G. S# R' o/ e
文档的注释部分" l/ V8 _6 q7 N( l( K) z
markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"- z6 U" ]- m; ~) d( i( V
soup = BeautifulSoup(markup)5 D  O/ ]+ p8 b5 x+ R: W# w
comment = soup.b.string
: S' B9 j% J' }comment
( Y$ w. t# D& }4 I1+ B3 _: e/ q4 L  Y( q
2
$ o5 K# E# A- |5 W, Q3 O& d0 z3: u- f: y2 N6 l8 Q. X' C  D
4
) \& x/ }8 l% z! x'Hey, buddy. Want to buy a used parser?'
+ a7 M4 E7 r9 Y1 m  A) ]+ M+ S17 [8 F5 p' E  D5 P. Z. t
type(comment); G; a. d- D; M) o8 q
1
6 N6 Z. ?2 y7 `* U$ rbs4.element.Comment1 A5 J: ]9 V% z( i9 g
16 }$ ]9 t* f- u# H5 |0 O
Comment 对象是一个特殊类型的 NavigableString 对象:
* q6 V) G$ s8 f1 m1 E$ B8 z3 jcomment1 a3 ^( R- X. r* B, o, R" T. t
1
& W, E/ A, v7 F+ j2 D/ j'Hey, buddy. Want to buy a used parser?'
$ r% H3 E" L+ ^1
- z$ p3 t! h* H但是当它出现在HTML文档中时, Comment 对象会使用特殊的格式输出:, T! s: m  R% n, T  i2 c
3 _2 B8 _3 B* W/ o& z' v5 x

! C0 f: ?& n6 l; Eprint(soup.prettify())$ g! o5 X7 t4 M' _5 F% `+ F9 V
18 `1 d: g5 T( }( }
<html>
3 z$ W# t& y& G0 Q0 y# h6 c <body>" d" n6 t9 }  A0 ^- _
  <b>
4 O$ r( o2 Y; l1 p! k5 _   <!--Hey, buddy. Want to buy a used parser?-->5 P% K% {* i1 g5 D% E8 t5 H, m- S" O
  </b>
( C" |( x1 {  M+ i# a% o </body>' b5 S6 Q. R7 z' x# ^4 J% G
</html>
- V* G" ]0 E3 Z2 A/ d1 B- l1; E1 U. m2 v0 ?% H( \
2
% x( Y7 h% V4 [8 G3
  f/ j' `; P  U- Q7 y42 i' h$ Q* h. b) T( ~7 {; ]
57 R: q4 t+ b8 R( D- T* l
6
; m% p0 s8 b) ]: e76 p2 L. a" l& M' J* z; w
from bs4 import CData
0 V3 K1 h6 _" r& W/ j3 mcdata = CData("A CDATA block")
% A2 [" y7 g% D3 ycomment.replace_with(cdata)
/ H2 ]" B, U$ ]. P7 b* ]print(soup.b.prettify())% g- ^/ ~! L! A
14 U7 i6 P9 O, P7 c/ L8 `, k) _
2$ v5 ^! E- p* q% J9 b3 r0 @/ V
3
" e; G+ D$ D8 d4
, W1 {& Q# m& ?, [) d* `4 c<b># f  D8 f$ V( s
<![CDATA[A CDATA block]]>
# a, g3 f( k2 G( L7 f</b>/ T1 S% `# i" L7 N( ]% T
1
. ?6 _, }% g9 ^6 A2/ C, Q' ?. L6 i
3
# n) q1 q" V2 B遍历文档树
6 c+ [+ H2 e/ v* R" b1 l3 dhtml_doc = """
3 S; C  E* {. f& n4 C<html><head><title>The Dormouse's story</title></head>) _  k3 G( W! J5 Y% c% S& L: m% n
    <body>
; l# `3 E" d1 Z<p class="title"><b>The Dormouse's story</b></p>
. E7 z) y( ]$ M9 j# [
# w" H6 {* h, |

* |8 ~. Q, F. M9 I! ~) D<p class="story">Once upon a time there were three little sisters; and their names were
) p3 w4 A" R: ], h/ j: p<a  class="sister" id="link1">Elsie</a>,
$ N4 U" o0 `* p& i# u) n<a  class="sister" id="link2">Lacie</a> and. f. T" g& a$ O, {# {
<a  class="sister" id="link3">Tillie</a>;
3 t/ z. {  H6 w! m0 Pand they lived at the bottom of a well.</p>8 I( Z6 b% ?. N0 J

0 T6 t  C5 N9 \( ]$ [/ j* \
; \! V* J9 _2 u0 U; l- ?
<p class="story">...</p>
  ]& r# B; G7 l; @/ |/ e8 \"""
" R$ Q, W& E8 z! o12 _5 ?4 {& o& C! B8 n$ L2 S
21 e: k6 ]1 b! ], |! |
3! ^+ i+ |% B" c! ~9 P# d" ^8 N
4
7 R) H+ w) z3 j. C. W5
" i# K9 a3 C1 E8 C+ s8 @/ U$ I6* c! a0 Q: {4 v% L
7
/ ]3 I( b" i4 `$ G$ T  r- ~85 U  y6 f% ^: j3 v2 W4 o
9; {* w5 X& F: P
10
! i3 o, f, F: g* P; [/ q11
3 U+ _2 j3 b* _2 y12
+ Q- N' l& g) c13
1 u8 K1 z' O  [0 pfrom bs4 import BeautifulSoup9 w6 w/ c! z$ B& P
1* P0 O# S' r# s) y
soup = BeautifulSoup(html_doc,"html.parser")
$ u% _& B# K# r# r1
: H6 b- G" R# x* O: l1 |子节点2 O( Q: v! U0 I  U' b
一个Tag可能包含多个字符串或其它的Tag,这些都是这个Tag的子节点.Beautiful Soup提供了许多操作和遍历子节点的属性.
6 N6 d1 }' Y) {  \3 l* ~
% X2 L; E; R$ C

- E7 b# p! i& P7 S( p' Psoup.head* d3 m5 n; p1 _4 N
1
  x. n* w7 ?. m. M; g/ p<head><title>The Dormouse's story</title></head>" B8 N( Z8 z# h8 s" H0 _2 d3 V9 \
1
* W  {, n; w6 R- w- ~3 g( s( j  Hsoup.title: D3 X9 I; J5 y$ [1 W2 D
1
# w: W! P; x7 t$ g: H<title>The Dormouse's story</title>" k7 M- D4 \" |) u4 a- m
1# S- n. |. z% b0 |& I1 q+ f
这是个获取tag的小窍门,可以在文档树的tag中多次调用这个方法.下面的代码可以获取标签中的第一个标签:
- Y, k6 o8 l  {5 ]; |  y# B) S8 ^1 l$ \
, k8 h$ g1 C/ W; N2 R: U5 R
soup.body.b6 q7 R+ T, F8 b% @! q
1
, F/ G$ Q; x! m$ j. A<b>The Dormouse's story</b>, _4 X/ V  L% P0 H  `6 }; E
1$ c% G  O  A9 s0 G! z: S* K; [
通过点取属性的方式只能获得当前名字的第一个tag:$ Q- o7 s8 A0 j7 b' n

, C5 s; C! a0 o1 n5 X. I

3 J. H+ Z3 r8 e7 }soup.a
* e6 K8 q& C8 e% J0 e4 Q1
( f; _- l  i* @, U) H4 J2 ^* [<a class="sister"  id="link1">Elsie</a>
  Y. V* B7 n5 Y) O3 Z1
3 l  d" R4 d3 Vfind_all方法& E# X! g3 X0 O  J- D! ?
如果想要得到所有的标签,或是通过名字得到比一个tag更多的内容的时候,就需要用到 Searching the tree 中描述的方法,比如: find_all()
$ c5 m) S' I' N5 ]# a9 G; s/ v1 D! p  z5 O

1 g& t9 Y9 A) O5 l, Dsoup.find_all("a")3 ?  y0 n) ~: }- Y+ _3 D2 A
1
; d/ t  j6 A. h* \" c[<a class="sister"  id="link1">Elsie</a>,
' V# }0 ?$ P: ?1 ^* ? <a class="sister"  id="link2">Lacie</a>,
% W4 b% V, z1 ~# r$ @ <a class="sister"  id="link3">Tillie</a>]
7 R+ j6 q8 O* t# e/ ]! I; k4 ~1
8 i& O# o- j" ~& p0 P* C) M( g& ?2- `, J8 }3 t1 y$ J. A( ]2 _2 j2 m
33 l; u# M. [9 k5 ]7 z& s) }
.contents和.children$ j% {  d5 M/ M" _
head_tag = soup.head+ ~4 O0 w' d4 F' R1 B. Y  ^& H1 S
head_tag
+ Q* l7 A4 \; W% @1 w" [7 T' Z1
9 Q: p6 n+ K% _6 Z  m5 x2
7 F( O- Q; [; D8 o<head><title>The Dormouse's story</title></head>
  q' @4 q: N- Z5 p; A1
+ R, B: i# |( o# l4 u# _head_tag.contents+ c" z  }, e0 R3 d; M. k1 }
1
5 G, j& W( D, C( N. v+ I. v# \, Z+ @[<title>The Dormouse's story</title>]& ]- H3 P4 y6 z" m' P& E
1
0 k! J; K/ n7 x( `( Y% Z: m" ?! Hhead_tag.contents[0]- O. i' E3 f1 e) I" A
1
* o- M7 i: k0 k$ S  r<title>The Dormouse's story</title>) I; T! }7 f1 E0 G
1
' M$ b$ `% Y# G5 i' J7 J7 _5 uhead_tag.contents[0].contents
% A& R/ o0 t! W8 g1
* G1 x% c) ]1 t+ ~$ f4 ~["The Dormouse's story"]! q$ Y8 e/ E9 U; g$ L+ J  A
1
- e/ V8 R: s  `  {2 |# ^: G! \selenium
7 I- F: z4 v' D+ o* W: a+ o  K- @7 Q6 n8 |2 z- n3 i

! ?6 E# J7 e3 \4 N$ N: o% K; D4 q) j2 S
% L" _- ~8 l6 E/ m/ d
selenium官方文档 https://www.selenium.dev/selenium/docs/api/py/api.html6 z& S# M( N  D  g4 Y! ?2 F
0 C) x9 P: [; L& O8 I

& h* _) o; u( {; iselenium介绍9 X0 c8 f% [8 T9 P% [
chrome浏览器的运行效果
3 X: W1 }. h7 Z, J在下载好chromedriver以及安装好selenium模块后,执行下列代码并观察运行的过程# ^; o+ B7 j) t% |

9 j/ `# @. m' T& N8 W" i2 ^& t

; o* d2 `6 f* F. J, r7 A  _4 v4 pfrom selenium import webdriver . h0 g% J: t1 F
/ M$ d6 y& D3 ?) l% I5 C4 K

8 n. |; P9 e' |6 \* O9 }( B# 如果driver没有添加到了环境变量,则需要将driver的绝对路径赋值给executable_path参数
* o3 T( B: v) Y0 ?3 Y6 f# driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')
, a) G2 S5 n. \& b" ~8 Z: @4 G+ x0 S4 b+ |' f7 b/ }- Y/ n

2 [6 G% v  M( H( h7 `& n# 如果driver添加了环境变量则不需要设置executable_path
9 s$ |8 C4 f# Z; T- J8 wdriver = webdriver.Chrome()) }2 Z$ I- k+ J- M

. ~+ W: _8 f: l2 Z6 Z. r4 n( _. _2 A7 x

- s8 N: S/ g3 M# p# d1 v# 向一个url发起请求" |2 C8 y' h- l  j: F
driver.get("http://www.itcast.cn/")
  J* E" @; i9 w* M" d' j9 x/ s
' Q6 S0 t3 }# w9 V6 n, y
6 y# N4 s/ B  E+ A+ j
# 把网页保存为图片,69版本以上的谷歌浏览器将无法使用截图功能
& f1 [7 n# d6 ^/ ?! E# driver.save_screenshot("itcast.png")5 U; Q) p' w2 u& A- v! o
+ f. N; w+ b) k. z+ V
- t$ F" W  Q% ?
print(driver.title) # 打印页面的标题( z" ]. h2 v5 C' p
* U8 c" z" _  m6 e$ E
$ f" b% I* m; q7 K( L! A  n0 C
# 退出模拟浏览器7 ]  q7 S+ c4 n$ N8 @  O: y
driver.quit() # 一定要退出!不退出会有残留进程!
* b* E$ m' X, }, H: K% k5 ~1+ d& s/ L- S& C6 r9 M
29 b0 u  x  K& z% i+ q* `5 a
3) N1 ?, U' M4 B$ X4 o4 u
40 Z! J, i6 Z  A' t" S- l2 d
5
3 G9 x! n3 g3 U$ i( b! H* p6/ }" c+ {7 t8 |- B
7# v+ N1 U9 G% f2 P) g+ L
85 D2 [  E0 r" f
9
" _/ ~  d3 A! V) U' P" ^10
. Y2 ^/ ]# f) Y" E" _& n3 Z11: k2 S& m5 U& v0 K# _
12  Z# v. q- g6 h& Y1 y+ D; D* g
138 H/ {7 e: H6 L- N- q
14
" @; C* L( T% V3 j15$ J3 F9 A- c+ G! s
16
4 Z4 U0 _3 e* R) S17
+ h2 H" w9 |; s$ z8 Q" v$ q0 i6 f182 G! g) g; b. p2 s5 y7 _6 g
phantomjs无界面浏览器的运行效果, _; O, W9 k* W  }3 g9 s. j
PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript。下载地址:http://phantomjs.org/download.html" W) b% Q2 q3 e4 T& Q
* B$ `: C% q$ u' t9 z
$ U  u% r+ ]. ?/ l
from selenium import webdriver
5 n5 t" ]1 t) {3 _8 y7 Y: d6 K* d5 @7 t: {( p* w! t

0 o7 g1 R; a8 e/ g. M7 t* M# 指定driver的绝对路径
. @& x; K4 f5 k7 N9 h6 Ddriver = webdriver.PhantomJS(executable_path='/home/worker/Desktop/driver/phantomjs')
0 y3 w- S- t  Q1 A# driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')% d% f& `/ P: C# {* i9 P# e

- A. g/ ?* h) M; q( F: g
- n* w: j+ W! F
# 向一个url发起请求
& q" I9 {. z/ s, g0 jdriver.get("http://www.itcast.cn/"); `0 ~3 J& u' L( G) K6 g$ C6 H

+ K1 }$ Q# m- r

& f9 k6 t9 R+ E" v0 O( ^, V& l# 把网页保存为图片  D$ d" B, K  V3 }- }
driver.save_screenshot("itcast.png")
0 s* g1 F; }; ~  z: P+ h' b8 w1 _: f5 ^
$ C5 Y6 F! t) m8 {
# 退出模拟浏览器
  z5 v  I( }* Qdriver.quit() # 一定要退出!不退出会有残留进程!
6 X' G& y2 m- s5 D& r7 j: N. @1
! x4 j' R2 B) G( e' X( w$ {2( F7 p) a5 w0 ~$ I
38 p. K# v( P" m9 U% l6 `
4
+ }9 o; t) v9 a& }. N! q; W  v- l5$ e+ ~0 X# i! g/ C, R( X
63 z3 f9 R7 m+ ?4 j: ]6 _3 `
7
! E+ A' l$ o2 p" X4 H8
1 I- I% S# ^4 r; d8 }# n3 o. Q9
5 s; q8 V; {$ j& L10& I& P9 H0 [1 e+ h9 F
119 g( @# @. h/ T' d& P8 C, Y
12
& J9 N  j  a6 a! D13
( y3 |5 A& V" {7 _# Y& F141 Z# c5 i3 \5 W8 ~4 ?; M3 |
无头浏览器与有头浏览器的使用场景0 B! X: K9 ~+ K2 S& Q, X

! L2 |! G8 K1 y, k9 B# W
/ s2 \! A: G4 l* z" S
通常在开发过程中我们需要查看运行过程中的各种情况所以通常使用有头浏览器8 H1 I' F* e" m) p
在项目完成进行部署的时候,通常平台采用的系统都是服务器版的操作系统,服务器版的操作系统必须使用无头浏览器才能正常运行
* D9 S; e) I. O% C! r: Z, Iselenium的作用和工作原理# `2 `0 g3 U- ^8 `% h. G6 n6 u
利用浏览器原生的API,封装成一套更加面向对象的Selenium WebDriver API,直接操作浏览器页面里的元素,甚至操作浏览器本身(截屏,窗口大小,启动,关闭,安装插件,配置证书之类的)
" g: t$ p! j' q: L7 A" F% U& c
0 u- h" s" e8 i) u3 m, M

& T- U, m5 q8 o4 Q: C  f/ Z! j0 tselenium的安装以及简单使用
  Q# G) A7 T7 u+ H9 ]; c# C以edge浏览器为例 参见这个blog哦,驱动chrome浏览器同理
/ n) M* A6 `& \* ^* F2 Nselenium驱动edge浏览器
! x" O& b: H- l" ^1 ?; ]9 ~8 I2 I. t8 j
3 @; E8 V3 |% {
chromedriver环境的配置
' D/ Y" T1 [8 W8 h6 Wwindows环境下需要将 chromedriver.exe 所在的目录设置为path环境变量中的路径/ D5 z$ Q4 C8 S6 Z8 {* B8 W; L
linux/mac环境下,将 chromedriver 所在的目录设置到系统的PATH环境值中
) x  [: B# M! _5 Hselenium的简单使用
4 b1 f: r9 m; }' ?/ O3 T接下来我们就通过代码来模拟百度搜索
2 v) m$ r' H1 @+ g/ H6 h
8 u) I9 Q9 O+ L' U- M9 S

3 d0 [* v6 d2 \5 d$ x0 r: a' F! Ximport time/ w6 p3 k, {1 h# o
from selenium import webdriver
8 B7 x' N* g7 ~! ]2 [; v& e7 M) T8 U. b4 s. j

, |, W6 q% Y) H2 t, Z# 通过指定chromedriver的路径来实例化driver对象,chromedriver放在当前目录。
- T3 R+ _) U' \/ V7 P# S6 d- W# driver = webdriver.Chrome(executable_path='./chromedriver')# D9 n3 i  Z3 G. f) c
# chromedriver已经添加环境变量
8 J# \2 x( B3 r6 ^4 v, Wdriver = webdriver.Chrome()
9 H. i/ |/ Q6 ^* X9 b  t2 V9 B% Z2 S" s
0 M: q) Q. M& ~

; Q0 p6 |. \+ l% A& \! G) t# 控制浏览器访问url地址/ e( U) K1 Q3 Q) [; n
driver.get("https://www.baidu.com/")
% |  N& H$ F  p3 X# B
1 p: z5 o+ r: b! o8 p
: \4 n# V2 ]2 X/ I4 n
# 在百度搜索框中搜索'python'
" P7 |% C4 f3 N' ydriver.find_element_by_id('kw').send_keys('python')$ t7 p5 H) g& H4 [" p; S; ?& e# p
# 点击'百度搜索'2 Z/ N; j; m  [" D  f
driver.find_element_by_id('su').click()0 p0 Z+ F/ b7 b* l. D- g5 l

: R7 k- c! F3 |

3 ^! v4 L/ J7 @( B& w5 @time.sleep(6); P3 b# @5 T8 q2 G9 p; [- _
# 退出浏览器
1 I: D1 E( N/ @2 W6 t& @2 |driver.quit()* ~9 r( e! B+ B
1
, F6 J0 f3 C2 M% F+ f2 U0 T2/ a2 d! |2 L2 J* ]2 p
3. p6 J7 {8 g4 J7 j! X: A! h% n
4; d4 b& V/ }, x/ f. S5 t
5
7 k9 X* P, ~) B, Z  Z9 F63 q* ?0 |; ?# ?+ Q: }
75 {- x% x) \- L; t; [
8
" k8 o, S) r# B6 Q9
  |: _5 |3 ^/ @& ~% P2 Y103 \& Z* \! `% g) v7 |- Q
11- \( J: U* g1 ^0 H
12( H+ F) j" g% {# F
13
3 u+ I; k7 t9 E9 h- K3 ?/ U- c14
8 Z2 E6 }! L4 Y. s15
) g/ [  M8 N" [( ]7 v1 \165 M; _7 W* s1 S$ O: J' D7 w
17" |; o# d; p7 U* p3 w  P3 S2 N3 \
18" u+ k. O1 A$ z* ~7 J* ~
19
" p) b) F& v5 @webdriver.Chrome(executable_path='./chromedriver')中executable参数指定的是下载好的chromedriver文件的路径7 y, o4 e' e, n
driver.find_element_by_id('kw').send_keys('python')定位id属性值是’kw’的标签,并向其中输入字符串’python’
. f9 r/ M& p9 L6 vdriver.find_element_by_id('su').click()定位id属性值是su的标签,并点击
6 X( q0 I' D/ U0 S0 Wclick函数作用是:触发标签的js的click事件
  W3 H7 v5 D6 F+ o$ I3 Q值是’kw’的标签,并向其中输入字符串’python’
+ ?$ U; ~  @6 r( F8 k+ r" o( A: w
9 [  Y! i% H1 x5 d# N1 k$ ^8 w
6 x( u! _5 c7 W; [
driver.find_element_by_id('su').click()定位id属性值是su的标签,并点击
% c3 C. W, _  f1 C& I1 Jclick函数作用是:触发标签的js的click事件
1 f" t& z. c* L2 a) h, v使用xpath来提取数据,爬取数据的简单语法。, l% _$ I8 ^5 L8 [  b5 _
% W4 n! H5 f) B

2 }* e8 w. r" a/ l: K# h! @% i! Q$ ulxml. s+ W0 L. W% |/ q' Y$ c0 a! J+ ^3 C

& [0 P( i# y: E# a0 W( S

& n+ ^. M  \; C( H( v; c8 v8 W/ S; U

- u5 o) p4 L* `7 F5 c9 lrequests官方文档 https://lxml.de/! h2 b* N7 S* ~4 _
2 t+ H" J* K- n, L, J4 Y6 n% x

. K$ t$ h8 m7 N2 `pip install lxml# F2 c; _+ [8 T+ W) q# E# |* w! ]: {( M' |
12 I$ v8 `! _8 }, a6 {
导入模块
. q  o  [' A+ ^/ G3 r: z' sfrom lxml import etree7 ~; Y% z! C% F" B: G2 Z% ^
1) M3 p/ @  u1 @2 `3 Y$ w8 T1 s
利用xpath获取text或者href内容! O& Q  T: J" V
/li/a/@href 这样取的应该是href的内容! v' @  N' J2 n/ E( u2 V
/li/a/text() 这样取得是text内容
5 u3 E! t% u) m% H& N( `1) p; k% A" a* C: n# T* ~# ]; z
2
' M+ J) {) P5 L" `" J/ T7 t6 ketree的使用2 r" \4 |  t& f/ N. g* ]4 z& v0 s
h=etree.HTML(response.text)#response.text是网页的源码8 f% s$ W# o) R( E; O  @
h.xpath('//img')  #寻找所有的img结点,
  B, J' Z) K; E9 ^$ P0 oh.xpath('//div').xpath('.//img')#寻找所有div下的所有img结点% Q+ n7 x( H; U1 z# V" V/ k
1# N2 F0 g4 E6 v; B7 T, Q- }) k  ~
2
2 v* V1 ^5 e' D3, S$ L2 Q0 V# W, _8 i& m  ^
xpath的语法  v; I1 B' K7 u3 v) |) A& q
符号
! N( o9 |+ L, N2 F: W% cXPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。
: A) z9 r4 R( [& k) w* V& p: h$ ^+ b/ ]* y" G: N3 E) @" a4 t
, [5 S5 V8 t9 O- U2 @
表达式        描述
- l! |" c% s+ G7 _  U, u1 w/        从根节点选取
$ V1 D! ?, b/ S//        从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
; D" A9 a: N0 c! [.        选取当前节点。# l$ |! A0 \! y  {3 C6 O
. .        选取当前节点的父节点。. \9 Z+ @) @% {8 Y% [* e  Y3 I/ i
@        选取属性。2 u2 ~9 f. T- g
|        在两个中结点中选择) G2 t) V4 n1 S9 w( n' s
()        用()来包含|
, q4 |6 j) L4 N5 x3 \*        包含所有元素
! {+ V0 S. E: @6 T4 G, @! Qnot        取反2 T4 |! h5 w: k. k% H6 M2 R
实例+ w" r! g8 X1 G9 A

2 E0 ^/ k* g0 h; c
3 [4 i/ ]& s6 o* d3 v* ]- v0 L
路径表达式        结果  _; L" i4 T* c% c9 t
bookstore        选取 bookstore 元素的所有子节点。  e" u) @0 \1 r2 ]8 V' F2 x* Z
/bookstore        选取根元素 bookstore。注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!
, j1 E) u7 H0 L! n* Vbookstore/book        选取属于 bookstore 的子元素的所有 book 元素。$ C+ s% o( A7 u( [& K& c  d# |0 }
//book        选取所有 book 子元素,而不管它们在文档中的位置。8 n, a6 W" u; Z* d
bookstore//book        选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。5 ?% o: m4 d+ H% F7 V3 s
//@lang        选取名为 lang 的所有属性。7 ^7 R" d# ?2 ~7 X( j
//*[@class]        选取带有class属性的所有元素) k+ O# d) V' E3 x  t9 p6 t7 D+ |, Y
//div[@*]        匹配任意属性的div元素
! B9 x  @" }5 F: S6 t& q8 {//a[not(@class)]        匹配没有class属性的a元素" p- a1 _- Q4 k7 m$ m  |% }
谓语
. n0 ]* {) ?5 [带谓语的路径表达式, A& G: A0 g- S$ l; O- Z; P, @; m8 ?

/ s) L  z4 X3 X. k; `* x

- L# [7 w% {6 Z$ a3 x路径表达式        结果6 E: W# t' }! N; ]* r
/bookstore/book[1]        选取属于 bookstore 子元素的第一个 book 元素。
1 ~+ [! o6 u. r2 D4 S/bookstore/book[last()]        选取属于 bookstore 子元素的最后一个 book 元素。
, P6 N1 g5 J$ l: r$ k/bookstore/book[last()-1]        选取属于 bookstore 子元素的倒数第二个 book 元素。) `/ W- N. }3 {
/bookstore/book[position()< 3]        选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
( a1 ]2 O7 c# Y' ]: X2 d! D. a//title[@lang]        选取所有拥有名为 lang 的属性的 title 元素。% b& e7 U2 T! ~& Q
//title[@lang=‘eng’]        选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。) M) U+ F4 A. ?1 T. \9 r/ S" k. _
/bookstore/book[price>35.00]        选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
+ j& {! Y) r* }8 \/bookstore/book[price>35.00]/title        选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。
# [& O- ]0 r0 k+ B6 F————————————————% F4 K: W2 U& [1 n- F
版权声明:本文为CSDN博主「北山啦」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。/ K4 s4 ~; q" i6 T2 }3 e
原文链接:https://blog.csdn.net/qq_45176548/article/details/118187068
$ G1 ~$ I) ?2 X2 z# v1 f7 h% p' M/ w& J0 Q2 q

* k" S8 P" y+ O* x, m
作者: 1051373629    时间: 2021-8-15 17:54
厉害厉害厉害厉害厉害厉害   感谢1 N5 V; X6 C; G0 r

作者: 1051373629    时间: 2021-8-17 17:08
厉害厉害厉害厉害厉害厉害  ( Y' e' j0 v4 Y# J2 i





欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5