- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563296 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174212
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
; L& s) P: d }; [. D: D4 cPython爬虫常用库总结: i4 P8 V$ p! i& B
文章目录
Y; x+ P: { ?# g( Y9 | z yrequests. O8 t8 f5 A0 T& p2 z9 w+ ^0 {$ z
requests基础
6 i) I# t- |5 ~. f% `9 arequests模块发送get请求
8 G9 m/ `0 h/ b; z8 a7 N$ [response响应对象
( r$ x) M8 x& J7 r K" nresponse.text 和response.content的区别
" D% o' [, f2 S解决中文乱码1 \( {) t, _! H( S' O. Y
response响应对象的其它常用属性或方法) M. r4 t4 Q9 E7 _3 d; O
requests实操
. T/ ^" ]& s5 @3 d- Q8 Lrequests模块发送请求
$ g( T$ ?& i" C发送带参数的请求 X1 U' ^) K/ s( ]
超时参数timeout的使用4 d4 |4 e8 G8 H4 [
requests发送post请求的方法
& G( y3 c& h& x* G) o- KBeautifulSoup
: e* A2 j* l. i" c0 `! P. L) ^5 f常见解释器的优缺点* i9 c' k$ B8 b4 a) _$ w1 D$ m- y
常用操作8 I7 I& @+ s8 E1 v& M& J! E
几个简单的浏览结构化数据的方法2 l8 K* m1 o- v4 W
从文档中找到所有的< a>标签的链接
* y! r Y) R; ^# ^- p+ |在文档中获取所有的文字内容
9 Y7 G8 ]7 q$ B6 n通过标签和属性获取
" U4 W/ Z$ Q3 ~% \, k8 LName属性
]) l; k6 B3 f5 ?/ r" e多个属性" p1 Y( A3 j. g7 A! d: T5 E# x
多值属性
9 G1 L* y7 p, b: C% e# M可以遍历的字符串
T* ^; v- W1 y2 c T注释及特殊字符串$ l* S Z) T: ^ P4 X' K
遍历文档树4 Z z. S. D5 L/ o6 H l8 Q1 n. p
子节点, _& ], f y% ~6 [* T, {3 X
find_all方法. G- j) Z5 O3 ]+ A
.contents和.children
( z2 k' c$ J- Y9 S9 k8 z* _selenium
% E1 l: k- _6 c) M1 ?% xselenium介绍) w; E d; {8 g4 t6 ?, m0 G
chrome浏览器的运行效果* ~& R( a d' P$ q9 n
phantomjs无界面浏览器的运行效果0 ?% v5 O- p+ P
selenium的作用和工作原理
# p2 ]! _+ g+ D4 [% H9 pselenium的安装以及简单使用
1 k7 b4 ? }5 g9 t/ ? qselenium的简单使用
, H# U! b5 ` H& j" wlxml
$ `: ?6 ^0 o% w4 k& r2 h8 W记得安装快速第三方库,Python经常需要安装第三方库,原始的下载速度很慢,使用国内的镜像就很快啦3 L; w* t2 ^: R5 ^7 `# f
1 C! Q" ?) z. s" g& B5 O% n$ S- B( s. _' e8 f5 O' a
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple 包名
9 {0 U- x% |: U- [+ B" `1
# y$ x o! K6 W% z快速下载模块
! c2 n0 d0 N' y" x: L& Z3 n+ z7 T1 m0 M
9 W3 m7 c4 ~% y" a6 {
官方网址:
4 x6 T- S& A* {. j% {6 m
% K, H. @7 T% k! P' x" t2 I" N1 Z9 V' M' k) ^
Requests: 让 HTTP 服务人类3 s: ?& i: e( }' D) H8 L
Beautiful Soup 4.4.0 文档
; {! l3 _$ g- ^8 K- F; }+ VSelenium官网
# ] B( _( C# R& [6 Glxml - XML and HTML with Python
% B+ o6 Q7 t' j& r( U. Xrequests+ a) y# E% w1 r7 O+ t
requests官方文档 https://docs.python-requests.org/zh_CN/latest/% t* y- c( u& ]! k9 K! N
% T8 `0 X# c8 e! q
& S, a8 W& `, O7 V0 S, z) A6 n/ R* b5 G) j# A2 A0 ^
: }0 Q* a1 b& l- B+ y2 s- I& f; L- g
% F4 @4 s( D. @; T
进行爬虫,首先要对网址进行请求,这个时候就要用刀我们的requests模块了。requests是python的一个HTTP客户端库,跟urllib,urllib2类似。与urllib,urllib2相比,requests模块语法更加简单。正如他的官网所说:4 M: _' j) `: D+ ], ]
7 Q- N! r! V; t" Y5 a
+ R. D2 @ E9 \6 L# C6 A% ?. w! A' H1 Y( w) @
e' }' k- [ J
requests模块介绍
4 ~" [% g B7 N/ N$ e
5 M' I/ u) n0 \& k& @! h
% g" R9 @( Q8 \% W发送http请求,获取响应数据
% ?% N' y; f o) K; a5 f5 N5 @% \: L( X
" o/ o) a: m: d. X) xrequests模块是一个第三方模块,需要在你的python(虚拟)环境中额外安装6 P3 ?6 a0 S8 |3 e0 ^
0 c5 \; v) g& x1 Y0 C# K4 b [: K
1 o9 |( S' C! ~- |% ], D* j
pip/pip3 install requests' Y" r+ E# }0 F8 V. ~. e$ i
. V5 Y2 k3 M4 _' C: Y- S8 \" X! v! ?- f5 L7 g
requests基础3 p3 h" c: v' c" Y0 w
requests模块发送get请求
$ _3 g: y' S" g#https://beishan.blog.csdn.net// a5 y `) y1 w# `0 l+ Q. f# F$ E
import requests # S! q5 x# P# x) h1 ?4 p
# 目标url
- I. b" j# z* \, v0 Y2 R& s: Curl = 'https://www.baidu.com'
" t% u2 E! L: w1 \# 向目标url发送get请求
) @4 K& f% _- e! k. Lresponse = requests.get(url): A# b7 A8 k0 U+ r. l% f5 h" I: S
# 打印响应内容
' L2 ]5 m4 J) Bprint(response.text)5 w* x( H% f0 G. e" I4 M+ B
1
+ x5 r( t! ]& r8 ]2
: h+ L6 o0 L& A2 b) a f3; m6 |5 Y& f+ j {' i
48 |, c! i# N) N5 m
5
5 L3 v, d5 m* ?1 ~& x$ R, Q/ _# H6; C0 |& W8 Q6 W9 Z* L
7
4 D. w0 Y' p7 k3 T80 P, v2 f$ `" a' V8 B
response响应对象' \3 ]" e1 Z0 Y0 B' E. N2 }! M
观察上边代码运行结果发现,有好多乱码;这是因为编解码使用的字符集不同早造成的;我们尝试使用下边的办法来解决中文乱码问题* l# @% F2 j% l- i ]6 u
- X; v9 _4 `; v5 {5 G
, B6 ^8 z8 T, A' a u% V
import requests
- S4 ~8 N- E4 z1 W) ~. {url = 'https://www.baidu.com'
( N1 z0 D- D' Y7 a: ?7 ^/ B# h( l# 向目标url发送get请求
: {5 t$ ]8 z: l4 presponse = requests.get(url)
& S% D# O5 V; H2 K- }# 打印响应内容
o* b. t/ f" v' A) W+ C# m: U5 ~# print(response.text)
0 h9 x! G& H w0 M3 B1 @print(response.content.decode()) # 注意这里!
V" I* y0 r1 m' e* b& H6 ?1: P( G( v4 j6 b7 b% f- P
21 |/ `) l; F9 r1 l# e1 [, p$ Y
3
5 k9 w1 ^* k- o4' h2 }6 L* i8 H
59 X( b5 Z2 _( A i* f
6; _1 L7 |. h# {
7
; B2 E7 [) P/ }1 o, Y" L" q6 nresponse.text是requests模块按照chardet模块推测出的编码字符集进行解码的结果# a% v/ L" _# R. z6 {6 X, x
网络传输的字符串都是bytes类型的,所以response.text = response.content.decode(‘推测出的编码字符集’)5 j$ \4 a+ N2 `/ l
我们可以在网页源码中搜索charset,尝试参考该编码字符集,注意存在不准确的情况
: f2 g9 o' F6 ^2 Mresponse.text 和response.content的区别* b( e9 H0 o9 x9 ^' g3 V+ m
response.text
- Y1 [+ h% Y/ s% a1 t4 G类型:str
! g8 }% S4 `6 G/ A2 J1 F% w* Z解码类型: requests模块自动根据HTTP 头部对响应的编码作出有根据的推测,推测的文本编码
* G& s4 V: ]- s. {$ b. {0 O+ L: |/ Wresponse.content
8 b5 v% M# r. P, {9 m类型:bytes
8 j8 w; s& n6 ]$ O v5 b解码类型: 没有指定" m3 Q2 v* B+ j, q9 g; k
解决中文乱码9 w7 X: E6 F: ~. H T. j
通过对response.content进行decode,来解决中文乱码
6 T) e9 v5 s7 N8 e1 o1 {* |
6 @8 [' z% L8 v/ j2 M/ n
4 X N9 K, r P* J# z( V% U' w, X* dresponse.content.decode() 默认utf-8
I, _+ M# m2 l! Uresponse.content.decode("GBK")4 q" |! [- a9 ?% ]
常见的编码字符集
1 e" |2 q: P: X9 }# a' Z* A- h8 rutf-8, c2 n3 G b. K. B8 k
gbk2 m% m1 P+ T( o
gb2312. z7 }6 E0 i7 z5 o
ascii (读音:阿斯克码)
* o- X0 B5 b5 Xiso-8859-19 Q" B: k0 W( D
response响应对象的其它常用属性或方法$ b6 \9 Y: B0 i i1 O, |
#https://beishan.blog.csdn.net/% m8 S j) g8 b9 r: s. N
# 1.2.3-response其它常用属性% y- c4 R! e c3 y
import requests
5 H5 R1 i6 _" V% K6 Y9 {# R+ i" ~! ~7 Q+ \ A1 \
% w9 r. n9 y7 z+ z, j
# 目标url+ N7 H" f0 g+ N3 W. y; h( e: F1 y
url = 'https://www.baidu.com'( L' }6 {) a" f6 {- k0 d9 l0 ]
- E7 F, v5 z3 h% n6 ^1 l
" r5 L. i8 r2 h, I. u! D
# 向目标url发送get请求* F8 c0 ?4 }8 F" S" S; K# \
response = requests.get(url)
9 \& p6 v4 O! Z1 N# j) n5 n! n. F$ d+ o
% b# T4 h1 X" o) y
# 打印响应内容
/ L8 w% X( Q! \" }* l+ [6 w# print(response.text)4 u- R" o. d9 m5 Z
# print(response.content.decode()) # 注意这里!
7 N- I/ ^% g5 w+ u" y! Kprint(response.url) # 打印响应的url9 v# G& b* q0 ]: P# T
print(response.status_code) # 打印响应的状态码& n4 N# z) y7 c, q, s7 z1 i& ]
print(response.request.headers) # 打印响应对象的请求头
: S% a, A" I1 x4 A8 ^print(response.headers) # 打印响应头, x6 C8 s4 \5 o- e! M4 o- i) B3 d0 @
print(response.request._cookies) # 打印请求携带的cookies
& F! _) P1 [/ K9 o& R& B8 X# x2 ]print(response.cookies) # 打印响应中携带的cookies
/ {; |6 |8 y5 W d5 @17 L/ r& F5 G- t6 S6 \0 H
2* F# ]# H8 g1 S8 M
3
# p/ U! u. c: K' {7 q# F3 ?* \( h4& o3 l* W( ]9 x8 h9 Y
5" t& h, O4 v6 ~) X/ G
6 I, [% E6 R: d. V- Z
70 ~1 r; A. a. n' K
8
. Y- F; T+ j( P+ J9
. n8 W; M4 Q4 p p10
3 |2 i: Y1 {+ ]( l' n+ @# Z11
8 v% m! E! I+ p/ }& y S12
0 V) _2 A* N3 A5 V3 b13! \7 R. \, n6 B' V! f3 l
143 R F i# ?+ W) c
152 a6 s! v" m% _4 S2 B& K; V
162 t6 v `' P9 S- U5 N2 C- f! P
17
, ]! d, w5 u1 _& @# q% O* ] {18
" }1 ?& U2 Q" N1 I% E k19
% @, o6 g) J* Q8 d" l4 Qrequests实操: T" B" c5 b$ _
requests模块发送请求
4 b3 A& z, a0 q; g发送带header的请求
- f/ S' t* Y9 ^% q; `8 Z, n$ _8 K# P5 L7 w8 y( q$ {+ F
; g+ o& q0 |. T
我们先写一个获取百度首页的代码
; s4 {2 n4 Y3 p( w$ z1 j6 T% A
/ W% S8 m' V& ~& Q+ @) V- x5 ^" t1 T4 R) m# C7 u
import requests
1 b$ ~2 X8 i' O8 d$ Hurl = 'https://www.baidu.com'
& K, i- J0 x& g% A9 Kresponse = requests.get(url)+ Z) a4 L2 |) W% i# {
print(response.content.decode())
3 ?' y* @% p* _4 s s" A# 打印响应对应请求的请求头信息+ J$ c( e: K. }. `
print(response.request.headers)
Y1 V2 Z5 B: r9 j4 ]15 m* v% r$ U- h
24 D% B, ~& m3 s$ R
3, U* p# A8 b! O' a5 p) L# U" _
4
( _# E* f7 c c% l) G9 u( C/ ?5* D: q% ^9 X5 B# z
6$ Y7 x: X1 ~8 H0 m) y
从浏览器中复制User-Agent,构造headers字典;完成下面的代码后,运行代码查看结果5 l0 S9 M- I" y
3 J0 m6 [, x3 B* A- a0 u
& t: R, w0 r! o( h2 Iimport requests# E( F- @* X/ D& E4 o
4 I) s1 D- A8 w9 X
% j5 I% ?7 ]4 B$ ^2 J; I8 curl = 'https://www.baidu.com'/ s ?0 i3 s' |& O3 E
# m" Y7 s, i9 E! c+ X
2 L' ]! K. G* n* dheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
* n! G' m# |" u( g5 Y( j5 N+ a6 @ P% y1 B' O- k4 b
/ |& E- A5 i9 z1 p E' h1 u# 在请求头中带上User-Agent,模拟浏览器发送请求1 e z4 I0 o; z5 m& E
response = requests.get(url, headers=headers)
* E9 c2 w$ r2 o5 ^, Z( A+ {
' y! M0 @- w7 X0 O6 I; O' \+ S/ W% d1 `, o+ v& P
print(response.content)
5 q; a w2 B- f( C% { q( d
Z* m; m9 I/ \' W+ Y5 M7 i# ^8 Y$ s4 _; F$ v; c
# 打印请求头信息; L/ d7 b; S/ V( D, q# t: \# n
print(response.request.headers)8 v! w. V. X6 E" O
1
2 z: z; P S+ ^& s2
2 W% w u% m8 V; U. `( L7 T& x36 W( l u0 A$ _( t& P
4
$ ?. U! }) }2 ?8 X5 i5 _5
) V9 p& Q$ r6 {$ ~8 g+ e67 e% j+ I+ C# O6 m/ o. ~
72 m3 B+ h# Z2 ?6 B# r% d6 O4 T
8! F5 m: ~' n9 ]
9
7 U2 u' d4 w) K: V0 e+ ?10
- l2 L; j+ Q ]; q9 A11
9 l( R' g+ W- G+ [# ]9 R1 r% z, S12
8 {9 c0 U- n7 Q0 H9 r9 t) b9 @( R13
1 O; o) Z6 r3 v( A发送带参数的请求
1 g7 O1 x$ k6 V我们在使用百度搜索的时候经常发现url地址中会有一个 ?,那么该问号后边的就是请求参数,又叫做查询字符串3 Q9 G7 m5 v0 g9 W: y5 p
7 }; `; X5 W. O; G6 G5 ?
+ [5 \: T. W1 K" x2 @% j/ U( _" A: F在url携带参数,直接对含有参数的url发起请求
$ {! L1 J( u( ~8 y0 ~
$ H; U, g/ A0 k4 }
/ ^1 V, H! b$ U/ `5 ~. fimport requests
3 ]- N4 T2 s4 M, \$ X6 U
' A. r" i& H5 V! `3 p" g
0 Y" _2 e1 J+ C5 Q- lheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
' [1 L* ~) x! _
) ~; J1 [- F P9 ? R: i+ J- x6 p( \# Y/ a9 [. X$ g% N
url = 'https://www.baidu.com/s?wd=python'
/ _( | s& H" T& O+ U
0 e; t3 H' x R! Q8 H" h" j
9 c5 ]! {! y3 H# l$ hresponse = requests.get(url, headers=headers)
/ {% M9 W) H, t! C$ d& O# A, S# K
( \" y1 o; i: I, @
/ @/ V+ g3 m5 f. O" S1
3 H; |' h! C- M" o& Q+ N: o f4 @# Y: b2; Z; A8 T4 C3 _( W( k' Y/ G% n
3
( m4 L* c! G) z$ J6 ^4
, ]: B8 u9 N1 d7 u. Z5
2 c+ o7 n& y7 Z) Q9 Q6
1 }8 f" M* i8 I+ F! Q% N7
8 x# L0 F" r! K* Q/ m8" U/ {) o0 v7 t. I! g) @+ v
通过params携带参数字典
2 A" N) R' J- A1 i- K6 _4 v1 s' V2 e s" D( Y5 Z2 w% J4 ?+ B
3 o* f- V2 b) C3 y7 q 1.构建请求参数字典) G* a, W6 F6 w/ N% T" a( S
& o3 e& J$ M+ V% V0 z, `/ P2 o5 e) H8 \: B' z
2.向接口发送请求的时候带上参数字典,参数字典设置给params; H) U+ W$ n3 z2 x. c f9 ^
7 E% ]/ W$ Y. z' ~2 ?; v! l, N1 j% W
import requests7 h ^/ o7 U# u9 \
- t; `, |5 l( i) @ C! _/ E' D
; x2 z: [, T5 |7 n- mheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}$ l9 G z$ e" h
# u! i s+ s7 V3 q
3 I: o; h M( U/ l
# 这是目标url
/ o3 B7 l+ |9 W: K) \1 v# url = 'https://www.baidu.com/s?wd=python'
) Z" t. |; L# X4 I6 R* l* p6 P" Q) H; z! E9 }' H* o
* D8 ~) Q+ k6 w V
# 最后有没有问号结果都一样1 i4 E1 O; C8 w, ]
url = 'https://www.baidu.com/s?'! ]; B3 g+ P8 ~0 T
b( Z T$ {3 O
u: ~" o6 q/ S# t L# 请求参数是一个字典 即wd=python
( P6 P. x" e! V3 Q* ]: p1 m5 Ukw = {'wd': 'python'}
- Q5 @+ V- O1 ]4 k; [( J$ }- B. n l8 f' X0 y' a( y
' e; i$ {. o: j6 Z& _& i7 l
# 带上请求参数发起请求,获取响应* U- B' ~4 _" _
response = requests.get(url, headers=headers, params=kw)
2 C8 t' T9 n \9 l" _4 D' q3 I2 O, a! k" S
! n1 K* A9 [4 C( I6 @5 H& p" R: uprint(response.content)
0 v! \5 Y# d* z6 b! R3 M5 o19 U/ @% q1 T: k5 e6 p; \
21 I; V' z2 m A# ` m/ _7 f1 a" N
3
9 q5 t4 k) H9 v6 K4
9 F% K: o% K4 q$ T2 |: J7 @5' C+ o$ K1 r6 i0 A
6
" w' c3 T. r$ a+ U9 N2 d7. @; ]& x( g) P T' ^
8
7 G1 _. i5 w' p$ r; }' F0 {+ y9; A1 {1 j: a: z3 J
10$ z2 g8 {/ a9 y9 B) |& t) t
119 @1 Y& K1 | M! V1 H
12
/ c8 _! ~- N. x j/ i13+ d2 _5 ]- ]9 l( Q. h( t
146 @' ?6 N5 S1 H9 W) _
154 o+ {$ A8 j1 ?$ L. ^3 `
16, Q, `, ~! I9 I6 E
17
! `9 q' g4 a8 k! \/ F* v+ i+ W' F从浏览器中复制User-Agent和Cookie
4 H. m6 `5 P; F1 ` I浏览器中的请求头字段和值与headers参数中必须一致
; |0 a/ s; E# q( ]/ |+ b. e1 E3 eheaders请求参数字典中的Cookie键对应的值是字符串
$ B) N8 s6 z& v/ kimport requests' G# M/ V5 U$ F" b. V
' R9 k' }+ g' O& q
2 d p+ ^4 s U( Lurl = 'https://github.com/USER_NAME'
) D: R% |* b( {- O5 \9 e" H
! p' S" O5 Q q
! I. S- C: k& h p T# 构造请求头字典
9 ?' C- r: D( I g cheaders = {6 j8 U( ?2 D1 g! a) B4 D) ]1 H) L
# 从浏览器中复制过来的User-Agent3 M0 ~; t5 x& q" R$ M5 V
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36',2 C& }2 n; R7 F( f4 k# h; _ L
# 从浏览器中复制过来的Cookie3 v! R( W1 s' T; M# k' | \1 y7 a6 t
'Cookie': 'xxx这里是复制过来的cookie字符串'
# |# }7 A9 v* s2 O}- n& I, U' o4 O; w
+ Z. Q o) J0 _2 ^! S1 e6 h" i, {1 E7 `3 ~5 l3 n0 N) E1 X
# 请求头参数字典中携带cookie字符串
$ H! S( M4 r( `resp = requests.get(url, headers=headers); ?, \+ C# T9 \8 s6 X: D! I
# V4 l& {) l g0 C% _. _! r. ?$ F
! s* p' W# G" B- ~4 T, _2 |2 |5 E7 u
print(resp.text)
; s, ~- | Z% \; x& W1
8 P5 G( A- i( r$ u# B% ?! E2
6 J: f( F$ f& K6 D7 o- C0 [' d3
8 m- |9 N4 ~) U* V# C48 n( x1 _/ C: J
5
+ v3 S$ K( Z& J: @' o) c9 `6
. q5 c+ x" K/ `: i3 J+ t9 z, z8 b8 J7
: }3 s6 Y ]# z0 j8 T' S+ {( |8; a0 r5 R7 ^0 s1 L: i
9+ \4 O; H& J9 E* p: a5 t
10
^3 y7 q8 T' m- W11
) x0 D* L& X- W& Z; w' W12
' `" N! [, i1 t9 w$ S; ^13$ z2 e$ n. f# Z" I: @
147 H0 o8 G( p5 r# G* r5 C3 }. M" v
15 R0 w# t3 n. |! \ ?) U
16
7 M* f& ~! ~' K超时参数timeout的使用! O( q+ n" ], q* Y) H. X% w
在平时网上冲浪的过程中,我们经常会遇到网络波动,这个时候,一个请求等了很久可能任然没有结果。
; H b$ l$ t+ b' `6 y+ r+ p
4 ~4 Q7 J+ e- t: L( q# w" [/ \; H1 y1 h' \5 |; ]- c+ r2 R4 N8 N4 ~( P3 ^
在爬虫中,一个请求很久没有结果,就会让整个项目的效率变得非常低,这个时候我们就需要对请求进行强制要求,让他必须在特定的时间内返回结果,否则就报错。
h6 _6 C& x* K# w+ G: j1 v6 M+ k8 g0 ~1 L' S$ q
' C# Y$ R4 s9 @) E超时参数timeout的使用方法
( P2 L/ P9 B+ o+ ?7 A% u
) W% p! u# s" m, \# d/ A
0 N* x, ^ c5 M4 A+ d$ |1 Kresponse = requests.get(url, timeout=3): c3 N! D% c, {; R! g
; A( ^% c, |! z3 G5 \7 r% p q. P6 T! T5 N' ^1 B
timeout=3表示:发送请求后,3秒钟内返回响应,否则就抛出异常
+ f) {' b# n9 l, F* K* Y% ]3 U6 w- C) H3 F: l4 [9 X" x. A( g
" J" p3 W% b9 ]
import requests: h) t8 {2 c0 D9 z; [
$ R; x% `) c6 ]7 }0 a
, B" k0 Z/ k5 A- d; r$ l0 i4 O( p/ u) O6 N% \+ n) ^( ` ~2 d
. N' D: y* A1 W2 f0 s! _, k- ourl = 'https://twitter.com': i$ i5 z& a4 [" l9 p* S
response = requests.get(url, timeout=3) # 设置超时时间( |& ?8 E/ N, t1 A- N
. s# Z9 M0 |* C: j
7 c. I* l: r# ?1
) k( s3 L4 ~& |' p8 R! h2
- j2 ?4 c0 F! E5 D3
3 q% }" J: k2 B; [' ^9 _( O3 I4
0 [8 u) C% s( b8 s6 h' X5
& C% t/ }' n1 [5 p% t3 G6
/ ^/ v7 K0 r% n& f; Arequests发送post请求的方法) y; V0 y3 }: H" s8 V) ^, F
response = requests.post(url, data)2 I8 L* l( v3 m7 X
" w3 N: @' y8 c7 `' A
y( {& r7 }% D0 n. v+ A
data参数接收一个字典& Q$ Q- y$ G% g, J
# G, p, b- G0 ~
3 Y& e2 L J0 q1 a6 q! Drequests模块发送post请求函数的其它参数和发送get请求的参数完全一致" _8 G8 ^6 B! ~! k
2 x' U3 n- t! M" c& x
! s0 n! r/ @: o' F% H
BeautifulSoup
, f9 p2 L4 f1 j5 E. z. m' _* C2 kBeautifulSoup官方文档 https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
+ V( _" G) W- n! k8 n% u; @9 o
! c( Y; |/ J8 M& z4 S# a& i9 A& G- W7 I; W+ B( O0 f
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
* h/ B# X' V9 k- `# ^0 Z! q$ U+ p5 |# r' |. F4 Y! Y$ J0 D" n3 ^
3 r2 _8 _! R7 h+ ]% d. f3 X
4 s% w4 E0 J, c& w; r% s' D9 E+ ~; H4 D' E8 l: [& ?. S; s# j
( Z4 Q, c2 n9 D$ H$ f$ ]$ ^/ Z+ J
I& v# `: y o5 ?. r# ~: o3 M文章目录/ f0 u, E- `1 o" W$ H8 ]# ?/ Q% ?
requests* ] E5 _* w; z( N K2 D
requests基础
/ g O1 U: c; H. ~4 ~" ~" r+ W7 |/ jrequests模块发送get请求
$ V' g* d# P% g$ Qresponse响应对象7 H; x* Y B- P& ?+ E6 z
response.text 和response.content的区别2 X) P- @& {) }8 e
解决中文乱码( T: I* u6 r0 \% Z! v. N
response响应对象的其它常用属性或方法
. n2 n% g5 A& j7 C3 \% Q9 L, Mrequests实操
! M* m: a) f! Y5 y" G ?requests模块发送请求& p9 F; c' b- M: t2 m1 R- p5 V! f
发送带参数的请求
9 o9 L. v& D5 o% U1 B+ r* g$ Z超时参数timeout的使用5 f8 d; T6 W. c' Q6 k- M( w, \
requests发送post请求的方法
3 o9 N% I5 i3 iBeautifulSoup# k1 P+ s: U0 [+ Y+ |
常见解释器的优缺点' T( f; p+ c/ c; P {% n
常用操作
9 d2 N5 j& c& z/ V( s8 n几个简单的浏览结构化数据的方法2 c" P3 N; v) ^& ^
从文档中找到所有的< a>标签的链接
; y |3 k0 u4 u! g5 G在文档中获取所有的文字内容
; |% M% U5 `5 m/ ^- l" V通过标签和属性获取5 a8 C2 p7 t) G4 a+ k/ C
Name属性
: ?9 g" I2 F( t0 g4 e, Z多个属性0 K7 }* N( U( @2 \, L. |
多值属性5 X' _1 h% Y; A0 |$ N9 k
可以遍历的字符串8 J7 S7 q+ _; G! f/ d/ |6 K
注释及特殊字符串3 Q2 }2 S L( M1 i7 k/ w! D& m0 E: o
遍历文档树
( ]" V* ~/ G6 x/ T0 i+ A$ o5 r* P子节点
$ {$ k# g2 |% W: Y0 q: f. ^4 C. ]6 Pfind_all方法
: b3 G4 e+ Q! V7 W.contents和.children
/ d& T" ~9 v3 C" A1 ^selenium# T9 y2 G5 Q4 Q8 r X8 M; J
selenium介绍
$ d# P1 p& ]4 K2 n3 O3 o8 Lchrome浏览器的运行效果5 V0 R* h9 j! R( w
phantomjs无界面浏览器的运行效果
. u8 R5 o: N* m. [$ V/ D+ Qselenium的作用和工作原理' E! j! F- K: f# G' |! F2 B+ P& w
selenium的安装以及简单使用
! [8 w. j$ D2 B6 a- h$ Pselenium的简单使用
) P- y9 v" L) D: v$ p- qlxml
* ]" s1 ^7 x* \6 N, v常见解释器的优缺点5 [, A% Z7 F4 q9 l/ K
r; n- Y8 q1 a7 C& T( G! s
6 A# [* `! a+ f8 F9 S) @; V
' g" c, E# c7 P t u4 \
+ M% }0 n% b/ P* M
常用操作
( M; F4 F0 g5 l6 w- d, s; v安装方法4 `7 T" i" c2 L' ?9 v
! \ |6 b$ z9 i+ f; s% Y8 w; d9 \
9 x2 L5 C% ^6 I9 T# p' f+ Rpip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple beautifulsoup4
/ l/ p8 K+ R0 x9 T b1
. J/ b5 E* S/ A6 K; V3 c# G7 A' d% f导入即可
: v9 ]% L( G7 e" k* m3 k6 T( I. |* i! u
g/ Z/ M0 R/ k% H! b# tfrom bs4 import BeautifulSoup
u( o' c& @! Y1 U1" q( l: ^ B( A5 D9 }
html_doc = """8 [2 E; r1 [- o) [- h7 `2 {
<html><head><title>The Dormouse's story</title></head>" u% A' e6 K+ E* J8 T
<body>
1 o, o q' G4 D<p class="title"><b>The Dormouse's story</b></p>% a/ h0 `7 l8 T, e
8 l# G* a4 l; d* ^: y& n, ]3 Y' S
5 ]; i' c2 B9 i4 c% I6 h; ?& [<p class="story">Once upon a time there were three little sisters; and their names were
, l; n- d7 T! m& T5 j E2 i<a class="sister" id="link1">Elsie</a>,
# j5 T! e: ^" W& a9 N& N$ K, D<a class="sister" id="link2">Lacie</a> and& `$ m* I, \2 J8 p) S/ w
<a class="sister" id="link3">Tillie</a>;
- }# J% M' W& ~5 y4 e( oand they lived at the bottom of a well.</p>
5 D7 f& D: g& ^
7 A# H" k9 n6 [ ^
& L5 s. y' X |4 F7 V% G<p class="story">...</p># I3 u; j( r9 [, k5 P. x y
"""
X( f+ p a. o% `1# } B, q8 s" }; R
2
2 v5 x5 B* C( x6 v3 z$ t, m( Y! |6 W0 C }* P* p
4
* q: l2 ^ r. \59 ]* v+ j! B; _# P; w
6& K* v$ l" e! L+ R1 S
7
, f( X% X& m0 J V- L( B/ z% F8# F9 l0 a/ t' ^
9% D! g# I' W( c D. i! p9 e0 k- }: N
10
1 W n. f! s% F11
2 Z4 n2 }) N' C' p- ~7 G- l123 O* d: f+ I5 \1 C- F, i
13
" m% T$ S& \3 G4 W7 S5 dsoup = BeautifulSoup(html_doc,"lxml"), w- r; I7 P, D7 N. s$ m
12 \$ @/ h* n5 {
几个简单的浏览结构化数据的方法
4 t; T4 G' P+ Q+ y' D7 Bsoup.title
8 X. @( H" F* y/ r( x1; P) u) Y' z5 \
<title>The Dormouse's story</title>
" B* [# N, J9 a: o11 O& B) _. H: F0 h: V6 x
soup.title.name$ `8 e5 l5 k! q) \
1
6 @1 k% E+ @8 j. {' F( a8 W'title'1 ~( h/ T3 V, {& `
1; U ]2 e% B* z9 X) m
soup.title.string
# w2 ~2 c" }- i7 J1
1 ~% Y: G. F: o# ]* Y' J h"The Dormouse's story" L8 [% z! m* h: R! W; z( T
1
9 w2 C& B+ ^! T5 b" d; Lsoup.title.text7 U# z1 X$ }) v6 X* }! x, _
1/ B" a/ E! ` D. W4 b7 h0 D
"The Dormouse's story") C4 Q4 M4 q4 ^& x- B
1
4 f* E1 e0 v8 ^soup.title.parent.name; Q% `6 N, \* ?! N N1 t
12 [$ {! d g+ C3 i" L" h2 x
'head'
' L0 u* Y! ~8 P+ j; s1
% U3 Z9 H7 j) U1 Dsoup.p5 N, d3 y2 |! A
1
1 _3 \/ D+ e5 C$ b<p class="title"><b>The Dormouse's story</b></p>! N6 ]7 W i$ f$ v0 s; W& q6 V" V* m
1
& E8 g! H3 A3 F, O" Qsoup.p.name8 C% ]$ _1 s( ~, Q7 q. u9 @: i
1( R/ ~3 m( D9 b- A
'p'# R5 D( w- \0 v$ U
1
' g8 N% f2 T5 c f: Fsoup.p["class"]
% {' k( U( M) Q* D8 W1, e4 Z6 d: c+ g9 t
['title']
9 n3 ^, t f A$ I1
0 v( h( f; ]! L- n, X$ rsoup.a6 r% m) @ l7 H
1, i/ }" Q( K3 d1 _* K
<a class="sister" id="link1">Elsie</a>
* E# D$ L. W) D& E1; w3 m: ]( H% P
soup.find("a")3 h) v$ M& N4 M& z% \1 p2 \ [4 |
1% K- q% ~& y& I# M
<a class="sister" id="link1">Elsie</a>0 G3 ]& G; ^, Z* N7 n
1* R3 F, h: \0 e* K& p) F
soup.find_all("a")
+ G# L3 F( G: _6 }- t1
2 `) h) ]6 C' k[<a class="sister" id="link1">Elsie</a>,1 `; D% x: k/ \1 @
<a class="sister" id="link2">Lacie</a>,
2 J0 p: C0 D: V1 _ <a class="sister" id="link3">Tillie</a>]
5 q& r* i- O a+ Z ~* e1
* p% Q1 l* f/ E2; i, t8 U/ d* u4 j
3
- j4 ~; D! k' D从文档中找到所有的< a>标签的链接2 g4 \+ a- w$ e
for link in soup.find_all("a"):
z+ b2 n* Z% W7 ?+ G6 s print(link.get("href"))& H& C5 t1 ?* c; `
10 @$ |# G9 E) ]* j, u+ i
2
9 e" Q% f6 J+ @http://example.com/elsie
" Q+ J, g, }4 p: thttp://example.com/lacie8 C, ^1 B. `. d3 q
http://example.com/tillie
* }* y. F4 o4 |* R0 ]1
) }. w% _& M1 ^$ d27 X9 c9 M4 k& B$ z+ D& i
3
, ~( o. f" q1 i在文档中获取所有的文字内容; Q) @+ [+ r. B5 h8 \# n
print(soup.get_text())
; K! m3 G0 |* ^0 k! n: m7 a: Y1% A9 r0 |) R8 k* e
The Dormouse's story
, Q. V+ u9 b# s* L- _* o% }
) z6 g4 I, E6 @9 o2 [: t; s! r* B* |) ]
The Dormouse's story
% R6 o6 ]! U8 |Once upon a time there were three little sisters; and their names were
3 {8 b' r3 f% F8 W5 B, ]) {Elsie,
3 t. B. C! n; X# Z' |, j1 _8 yLacie and0 q2 g O5 L9 w& Y4 M9 Z# B
Tillie;3 T k0 ^( D3 @: y! b1 }) B
and they lived at the bottom of a well." @' N5 O [0 x: H+ e+ q+ I
...
0 W% R9 {& {, |+ W0 Y' ^; y, a! E1
/ z7 [4 Y6 d( Z2 t! u0 k+ F; z2
% B ?& p0 s: W, j2 \" k& u% i5 ]& Q8 ?3$ a x( u6 d' D+ {5 L/ k& b- U* l
4! P% L2 Z$ t8 ]7 E: G7 {2 B
50 O% q3 ]4 k6 F, ~
6
& @$ M4 `0 B$ b S+ A7
! n& N. L# q N/ P0 V8
' y& D4 N5 p4 u4 h1 @/ i, [: G8 P9/ y! C' k( Y5 k. @% e2 H3 B/ k: U! @
) u v' K+ {) f6 I3 s- t
3 G r& }& ~$ e" P$ M+ M6 |
" I3 l' u7 M& o: I( Z通过标签和属性获取3 q6 A+ V6 k4 ]. ~+ L( S
Tag有很多方法和属性,在 遍历文档树 和 搜索文档树 中有详细解释.现在介绍一下tag中最重要的属性: name和attributes; e9 |' O8 O. _9 E8 W
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
9 ^5 y, L2 w, e6 otag = soup.b
: n6 o6 C* f! J Atag
: [- I9 ^/ M, r" ]/ O1# `9 P% r( w7 o9 L6 u! _; R
28 Y+ Y1 d% E. T' v+ F; ?
36 p y: i: \' \9 M4 \+ _, K* E
<b class="boldest">Extremely bold</b>% I' ^/ |: m% h: P# ^! S
1$ h* D$ f! n) r l6 w8 e3 h
type(tag)
: T& M8 \2 e- y1 T' v. Y4 }, g1; r- x3 F' h& }9 q# w
bs4.element.Tag
9 b; G* k# b! M4 a) T; M1 p# L3 O1 H% {+ ?- w, r- s" T/ U; A
Name属性
% Y) |+ Q4 `/ B8 l- B7 K每个tag都有自己的名字,通过 .name 来获取:! y; ]' I8 n# t8 j7 ?
tag.name, |; j7 R9 U b, `! y" X
1
2 e( r( O9 C, [; G3 H'b'
* Z7 F) `+ {- J0 \, y0 k6 w5 m12 y3 ` k+ E1 g4 F
如果改变了tag的name,那将影响所有通过当前Beautiful Soup对象生成的HTML文档% \$ C% k5 p& v p( y( m' s: H3 U
tag.name = "blockquote"* ?+ e, a1 V" ~
tag
8 Y8 }& _4 k; q: \! g( C! V# W1. O8 d3 I, h9 a/ F7 i; O% t# ~
2: y3 I5 Q9 B3 y' n
<blockquote class="boldest">Extremely bold</blockquote>
0 m" T& r( r. w; ]) m/ n1
# y0 ~) r% _& ?+ }% I) m8 v7 L多个属性' b9 K% ]& m' W% ~- A' U4 |, c
一个tag可能有很多个属性.tag 有一个 “class” 的属性,值为 “boldest” . tag的属性的操作方法与字典相同:
4 l$ j4 O8 U0 htag["class"]& L5 V- u% ~0 F0 `0 G
1! i! }$ E; Z/ z* v$ C
['boldest']2 W p, f1 G8 R, W
1
! \5 I) S+ L; b+ t6 Dtag.attrs% V2 k L1 r; e8 O% g! H# B, G* m6 y! Q
1: K' H& A/ b" @* c: e
{'class': ['boldest']}) A9 J) ~3 }% X$ S/ y, b) @! I
1
3 G; U. _9 l: S+ Xtag的属性可以被添加,删除或修改. 再说一次, tag的属性操作方法与字典一样9 p2 Z/ r& T- U4 X8 [& F
tag["class"] = "verybold"
& B4 M7 Q' x8 H+ `2 v4 I1 gtag["id"] = 1
2 U! Y; T0 w j5 k8 A* P% p: P- x) Ntag; W( y3 T# U( \/ z. ]3 G$ @
1
! }# f' d% s5 s3 m) M3 l. F2
- g a! z7 l; f: j& @' y1 l3. F5 W2 O( f+ S0 o$ Z
<blockquote class="verybold" id="1">Extremely bold</blockquote>
8 d+ L9 I W* ~- K17 u/ E Z0 Y4 {( M
del tag["class"]
7 h) E/ ?# J; ^ f+ G# [tag
4 Z! E6 d' F7 \) a7 l8 {: m1: u" n. a& x- y. ^5 y
2
+ \1 y0 R: v1 `5 V. g1 @/ i<blockquote id="1">Extremely bold</blockquote>: J% O: n1 |" L; Q
1
9 d% Y2 ]5 p$ _/ j多值属性
; O8 G% O+ ~, h1 i2 Ncss_soup = BeautifulSoup('<p class="body strikeout"></p>')
1 E5 |5 h, [- }0 T' U1 t% Ucss_soup.p['class']3 B W5 e+ [9 n$ O: U! }
1& u/ F$ h' O+ A, T4 k: f" I. _
2
; v1 Z( @$ X1 |8 Y8 N& ^6 `['body', 'strikeout']
/ @+ N. t, ~0 u1
- @# R* W# x/ ]; C3 ecss_soup = BeautifulSoup('<p class="body"></p>')
" b) i2 S& C5 Fcss_soup.p['class']3 D# u& M1 ?/ M0 ^# V7 l
1
- \) A/ K0 O: X3 S4 |2
' L* z8 s: z- e$ b& `* ?['body']
# ?% ^8 ?, K) ~" j1
0 a2 m, o6 ]2 T% T! h3 M可以遍历的字符串
0 ~9 Q; V4 _8 J. B: v3 t字符串常被包含在tag内.Beautiful Soup用 NavigableString 类来包装tag中的字符串:% p! @* M1 n- J
tag.string6 P% b) u* N+ U
1) T& Q4 h0 H h0 \
'Extremely bold'
: O0 a9 g+ S( P' ?' K. }9 H1
~8 S% Y; ^ f/ g! H4 L1 Xtype(tag.string) @' E4 x1 @$ u/ k1 \( |5 j
1
, l5 W2 ?( E/ A8 xbs4.element.NavigableString* _. Z& W5 J9 h( S0 q
1' N( W( v2 K$ r) y/ I t
一个 NavigableString 字符串与Python中的Unicode字符串相同,# Y' E# ~; T. d% S/ M) p
并且还支持包含在遍历文档树 和 搜索文档树 中的一些特性. N( J; D s2 |$ M/ r
通过 unicode() 方法可以直接将 NavigableString 对象转换成Unicode字符串:
9 }+ u. |; i* S0 O7 S" A H. f# G
. C" F9 N/ B* U- y0 u& e
$ _+ s) y1 ^9 t4 Vtag中包含的字符串不能编辑,但是可以被替换成其他的字符串,用replace_with()方法# P* Y r! P' O" Z' E a
5 F- W$ v" o0 C
6 L3 Z5 T7 ]" l, xtag.string.replace_with("No longer bold")7 ]) }$ t. ^9 ~: q
tag: q4 ]. K" D! O f4 f; Y
1! {1 k' ` l9 R1 _" V- I0 D
2
+ K0 ?/ i( f4 ^. S- u<blockquote id="1">No longer bold</blockquote>
9 T8 T& R8 `3 I1 J% [1 \+ I1
$ q2 T; u# W) V0 C4 l注释及特殊字符串8 N p8 Q0 T) `+ `% A5 q$ M
文档的注释部分6 v7 X0 R$ Z$ N z4 j
markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"# C. S9 w/ X9 s
soup = BeautifulSoup(markup)
9 ?8 N4 K Z( f& ccomment = soup.b.string
' J# S# K) J' i9 ncomment; X$ D# q5 B% Y4 {; d
1
! U& j$ _' v/ V( U8 L27 x# W/ P, b3 c8 I) S* ?9 a
3# L5 J, G' `9 ~! l; z. W! l
4
, @; b( X) K- _# e! f/ [, _4 S1 u'Hey, buddy. Want to buy a used parser?'. o* ?" p6 ?# B& ^1 f! U2 I" I
1
, l4 W6 B( |, ^# G$ p8 S5 _type(comment)- [# s- l( \3 g- C3 L) ~2 r8 I0 ?
1
* v' M6 g" l% p! Ybs4.element.Comment4 p, A' l$ y6 q, g& D# ^
13 I3 m( [3 z& x5 C8 Y
Comment 对象是一个特殊类型的 NavigableString 对象:
. Y$ J6 B3 \% V! u! \& Ccomment
, J" G' T) f( D$ Z* j8 y1
. ]) X' z( g0 ]1 [9 l" Y'Hey, buddy. Want to buy a used parser?'! H; n5 l9 A- b9 r. o8 e4 Y
1
7 h1 B2 E' B5 X& `! _) H5 h( U但是当它出现在HTML文档中时, Comment 对象会使用特殊的格式输出:# I6 V! y, d |, `3 D# g: T
+ p1 ?5 R4 a! ~8 I+ |7 f
" `7 H: |6 p7 k7 \5 l" p! s3 h
print(soup.prettify()): j3 a1 Z4 g4 {5 T8 I
11 n' `6 x! c- O3 R! U
<html>& h3 Q# m" p4 K' m6 A; d1 _( z9 b! Q# N4 t
<body>
# }; }: k( e- k5 i k <b>+ R0 P( E1 `' `
<!--Hey, buddy. Want to buy a used parser?-->
$ {/ `/ J! m; o# [ s. M) _ </b>: G* w1 x8 I, z5 Y2 x
</body>
3 g f( i+ W! z8 P, y; f</html>
- J7 [8 n4 }6 U9 r5 f1
: j1 m6 m. r a3 A* N23 O! c8 ]" L5 a, W
3: `9 D' s" L7 s/ V0 k; ~
4
6 n/ j6 i1 g( A5 \' ^0 o' e3 c6 i
64 f& S! G# J1 g, z3 V
70 i+ w4 b* I- D: t1 P6 J( V0 p: `
from bs4 import CData
) U5 H; @) o/ f1 b! Qcdata = CData("A CDATA block")
$ q7 p$ }$ {3 t0 k t' F( d$ A) Fcomment.replace_with(cdata)6 E4 }$ ~" R5 U8 u1 t5 E) @
print(soup.b.prettify())
* y( O E% J$ G4 m$ i& [ h9 X7 V( g0 S11 v+ E$ Q' S, p1 u' W% V1 T
2
1 l+ Q4 h( K$ P4 N; ] V. ] W" |38 N+ D- ?5 {8 Q3 C
4: Y$ ?' E; c6 J# T
<b>
3 P* }; x8 q0 D; q <![CDATA[A CDATA block]]>6 m" A' x( D% M9 ]8 y% i
</b>( i, A% Q$ g) p
13 y! J: s- I c0 J8 ^! S- ^' V
2
. a: Z, k. \0 K0 o( A9 U/ Q3
6 p# `& u$ v9 n# @2 |" U遍历文档树
: v. H2 s: P* ^9 c; [html_doc = """, R2 [6 F; I8 ^- u/ o
<html><head><title>The Dormouse's story</title></head>
. N* v( k- N( ]1 S4 |4 z <body># L! C a) W0 Z5 S& o* \. W
<p class="title"><b>The Dormouse's story</b></p>" {/ `- W* J, x' r
( x( F( Z, O* i, {# y: _, T M1 I8 _+ F$ O) d! A3 f
<p class="story">Once upon a time there were three little sisters; and their names were" ] g* _, y; j9 M
<a class="sister" id="link1">Elsie</a>,
" Z5 C" v( z* U! X<a class="sister" id="link2">Lacie</a> and
8 {& i6 p3 Q! K<a class="sister" id="link3">Tillie</a>;; j* i' H2 o% L- e0 T/ a
and they lived at the bottom of a well.</p>
# \- N- o' D: q5 \5 u
( G: J. e0 ]2 R) A3 D5 G
' s& a4 E# _; ^5 f6 V<p class="story">...</p>) R4 `$ e, G5 {( \
"""
$ X* {# O. O1 {& j3 g1
- H# T) W6 B& Y8 I1 d) z! s1 C2: u6 |$ B0 U( D+ X% Y) K( |0 r+ A7 y
38 [7 j! g, e9 {+ M9 R
4
/ c1 m `% @: ?% Z5! }- D6 t# I. z, y/ j0 E
6
7 s$ p5 y0 _: w6 t2 t7
3 R& V0 l/ P6 X1 K0 u; K( A8
* ^- {% p) U" d( D/ p- i! u9
- i$ M3 V+ n! M4 U" `& q5 P10
+ P# d5 r% \. Z8 T7 u11
+ `) M$ A Z$ q! E% R2 r& z12
: k A& A! j( l7 L g+ z' A Y13 @( y. K4 i% Q7 |& E9 A* ?% b
from bs4 import BeautifulSoup: V& u( P( Q0 D. a- L1 g
1- K* T/ b. \% I$ E
soup = BeautifulSoup(html_doc,"html.parser")
$ e- j# i& s5 ~4 P/ I14 q! n- ]) c" ]% S7 o: W: V! F
子节点
) N1 \' f8 e; Z! g4 I一个Tag可能包含多个字符串或其它的Tag,这些都是这个Tag的子节点.Beautiful Soup提供了许多操作和遍历子节点的属性.
9 I0 p* D0 y/ U7 s5 n3 ^
5 S- R# I7 H: z) F- q7 v2 i0 F+ ?, |# B1 u$ g2 P
soup.head" \; S) I C( S! q7 y, U5 ~
1
5 K( W0 z! @% V+ _- U<head><title>The Dormouse's story</title></head>
9 b Q/ P, \& C/ W6 Y- W, X1
, D8 x- T9 N w. k) h5 E$ Xsoup.title
0 p3 I2 x5 l+ h1 Q4 n; `7 d12 P! K9 i+ Q0 L
<title>The Dormouse's story</title>
' T w3 A8 a9 d& v& z( }& ~/ E18 v! o# l, _7 [2 ]2 {6 ~- y$ J
这是个获取tag的小窍门,可以在文档树的tag中多次调用这个方法.下面的代码可以获取标签中的第一个标签:" }0 i6 C" o0 O+ m
. P1 V% W) n' q% F& _1 ]3 W
3 ]. ~. t, O4 B+ |0 G( j& V8 esoup.body.b9 z0 E" G' R+ @- _# D+ P
1; O: q" ]! v! [, A! L# Z/ B2 \
<b>The Dormouse's story</b>. n! [6 y6 }' @
18 `$ D j1 [" H' M# r
通过点取属性的方式只能获得当前名字的第一个tag:* x6 N$ t4 y- m9 c
3 t0 p: p( @2 r/ B+ C5 V9 Q" @. W2 u2 l5 w7 m
soup.a
" b4 w( l8 b9 S" R7 v1
/ {0 ?2 _) f4 k! Z' g& q- L, ?* _<a class="sister" id="link1">Elsie</a>
' B! r$ ^1 M j, _5 Z7 V1 q1
& F& ^4 { O9 g- J. b: P3 B" afind_all方法
* l% e9 D3 A" L# x* |如果想要得到所有的标签,或是通过名字得到比一个tag更多的内容的时候,就需要用到 Searching the tree 中描述的方法,比如: find_all()/ {$ |. R; O" p# P5 Q2 ?$ p
4 P- u6 L- D6 I; K8 |5 J6 F6 c
# N) g7 s$ C8 O4 T' F+ e( Lsoup.find_all("a")
# C, s9 v) x6 x% a: o6 ~$ I4 f/ p1 x1
. X' X% ]7 N+ E Y. }$ ^[<a class="sister" id="link1">Elsie</a>,
! F# u9 h/ c, k5 @* J# t/ K <a class="sister" id="link2">Lacie</a>,: }5 Z" s/ y5 p
<a class="sister" id="link3">Tillie</a>]& {3 R5 K6 E1 G8 O d
17 a5 A3 j) {, I. M8 m
2' @% g! F2 m' N3 i( L B
3
* p; M( }& k% A3 f4 Z; F% `, z$ A$ [! E.contents和.children
* ]* z {# I* ?0 U+ x: Ehead_tag = soup.head
a* H6 h- ?* b& I4 a0 R) N, L; jhead_tag( L/ C% ]6 N7 H; z
1
. \7 {' {9 s3 D O) [& z6 R2: [$ J, w0 h, X5 P
<head><title>The Dormouse's story</title></head>" }: P6 S: |" c3 T6 I
1
5 P; I5 p. w: y6 v/ g e9 a& K! I5 Fhead_tag.contents1 m, G7 q9 I4 T- g5 s7 a9 w! X
1
1 Q& a# @! N* O; f8 U" j f7 `[<title>The Dormouse's story</title>]
! U& E1 J/ \0 k( d6 Y) n: B; j1
- Z/ T o* o0 J0 ohead_tag.contents[0]
9 E5 }- m6 T$ V3 P: N/ Q, c* A' Q1
$ Z) ^7 ?* U9 V* O( k9 _<title>The Dormouse's story</title>
- W7 R) l, a( f* ]% P1
- ^* L) n. P* V: \' T Jhead_tag.contents[0].contents+ y) O7 ~; ~( u# k3 |3 N4 v
1
/ W& Y, k9 O2 }["The Dormouse's story"]% ?- r+ ~9 U8 t) x" w
1
: `$ v& o, C9 Z# g: s$ eselenium
. x8 h9 ~7 \4 |! P8 s9 K: A0 t. r+ W: g& n c% H
% u6 d. I% V3 v) D
" [* ]+ F v, ]
6 l9 C. Q& h, U* d4 N7 G( t; kselenium官方文档 https://www.selenium.dev/selenium/docs/api/py/api.html
! H1 ~* Q% V* d! v- i
3 B7 \: [: R/ x- q: n* j9 ?% M3 `- `3 Z3 r% [/ c
selenium介绍
" _/ \8 g2 t/ d Wchrome浏览器的运行效果
. I3 V7 Q# C* x在下载好chromedriver以及安装好selenium模块后,执行下列代码并观察运行的过程
0 F* a0 o! h6 g" N
X& Q; e% v3 ?6 j! I- W' u
: h6 u* J: n8 C4 l, ofrom selenium import webdriver & E( s2 Q$ o1 m- v
) Q- J) c6 ^5 Z
! t8 A8 M6 H- A. w$ \# 如果driver没有添加到了环境变量,则需要将driver的绝对路径赋值给executable_path参数2 q4 c& Z2 k" M7 X* p- L5 I8 q2 c
# driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')
. `! `6 N! n m8 [1 \$ D8 _1 t- `: L, y C. `7 P
* I6 N, C" ~ g' \- m- d, c% S
# 如果driver添加了环境变量则不需要设置executable_path
: i* b0 T5 L$ X4 x# I3 |: Xdriver = webdriver.Chrome()3 a# P& q0 s; Q/ F* V2 H$ E/ N
( T g7 S5 n2 R9 k
% w, U3 Y3 b0 m0 J( Q# 向一个url发起请求
: }5 s* a! c& s* X6 i8 x6 |driver.get("http://www.itcast.cn/")& O* Z" s: b& Y( j
4 r2 _5 V' O% U1 ~( `; @- n0 K' Y u: z( H6 Z+ `0 b
# 把网页保存为图片,69版本以上的谷歌浏览器将无法使用截图功能* J% E9 g4 s3 o; n
# driver.save_screenshot("itcast.png")
; P7 M6 |6 k3 T# l) G( q" V
( A2 R2 u f, Z7 D3 N g% q! R# C: L& [
print(driver.title) # 打印页面的标题8 J' M: V( q+ ~. v7 [
' ]: i* X- n& P! i5 R* b% K6 \+ K. ?& J& I
# 退出模拟浏览器
f8 T8 J2 n: I$ f3 U, a0 c' K" Zdriver.quit() # 一定要退出!不退出会有残留进程!
6 P7 o% D7 R0 Q% p* ~5 a7 p1, [9 R( i. V# Y% A3 z
2
; P! ~2 U' Q& ?1 ?5 t0 t38 h7 O, [( a5 G
4
7 K# g6 \* c. \5
; L$ d/ q B# x6
9 D( I7 b0 d0 M1 H4 s. h$ P7
$ Y" l( q4 ?6 d$ L0 n8
2 ^9 X3 a% K2 k- q% {9; ~" J9 ~' o. a
102 S+ T! A0 v8 K
11
+ g1 O2 h' y- V+ d# A121 `" {( A2 I1 s6 @
133 @# o$ q0 z+ ^6 G! k' Z' T
14& L& ~5 l+ R* J( u: h- g3 H3 e. Y9 T
15' c) P: V6 v, M
16" F; ^! T; f" U
17
% Y/ j. ]4 ^: o5 g% E, W8 Z. d' e18
! W) l- _0 y; ]phantomjs无界面浏览器的运行效果
3 i6 y# Y v1 Z& hPhantomJS 是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript。下载地址:http://phantomjs.org/download.html! D9 `6 f( h8 o2 f4 t1 y6 W( O
) T4 m7 A, _7 E2 o' x
q& N6 K2 V4 K& G+ J' s5 efrom selenium import webdriver
& ?; o' A! \- v r$ ?+ X! u& I
/ Y0 R: D+ H" u" c, z) d
# w2 W# ^7 j% T q6 R# 指定driver的绝对路径
% C$ ^9 x; D4 y0 h, pdriver = webdriver.PhantomJS(executable_path='/home/worker/Desktop/driver/phantomjs')
0 H5 z8 f9 ~: r, `- U$ N+ I4 b# driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')
- u+ X) V+ e3 P7 O' j& N
! L, h/ g6 T8 b4 e$ a' v- ~# x- i+ u- O; {! T' C" J: |2 x
# 向一个url发起请求" M c% T7 t- P- N
driver.get("http://www.itcast.cn/")
6 C" a5 |8 J+ h6 M5 R# F( M, G4 Y; q! Y0 R/ g
% ?: }5 m+ i' O0 k) q4 B8 Y
# 把网页保存为图片
u* O( |0 o \; P+ L: @/ Rdriver.save_screenshot("itcast.png")
' J; y' c* M1 p! }8 e& M" T/ u4 q$ u6 U; G. I: U1 c) q
! U) b* O0 h1 R7 D+ Q
# 退出模拟浏览器4 ~ }. R6 } w3 A" a
driver.quit() # 一定要退出!不退出会有残留进程!
8 W! t# t* ~7 ]7 y+ {8 q1) O3 ~0 Q" t* c2 Y3 f* k H9 I
2
6 c3 g+ { `: U- B- a& a$ |3 R9 C1 M E$ H9 V" {1 t8 ]% o
4
6 q6 i8 ^ J" p4 _5 v0 D5" L' E3 S9 B% s( X( Y, @1 \
6
( s: J$ o9 Q9 y% ]* j7" z {* V1 [0 B: {5 V F; t
8, H l0 O3 H7 T( V
97 V9 k( K Z1 w
10
* W! A! {1 t# p! Y4 K( I$ R11
+ X/ E$ ~/ r- @8 ~2 C. e, Q; V3 g12
% L; Y% ^ s0 @9 R6 J1 ]2 \& O13
+ H l* C5 `; \8 i14
5 Y1 p9 q4 ^; b无头浏览器与有头浏览器的使用场景
# G; i# Q- V" O0 a; a5 N" x" ~
) h" ~9 v3 Y. ?* {/ E: G7 i3 ^ q& @- o: ~# C( I
通常在开发过程中我们需要查看运行过程中的各种情况所以通常使用有头浏览器
: Y3 r# a5 {3 c5 ]8 v9 V M4 a ]9 f在项目完成进行部署的时候,通常平台采用的系统都是服务器版的操作系统,服务器版的操作系统必须使用无头浏览器才能正常运行. j: y( P4 k* Q! {" I+ b
selenium的作用和工作原理1 x [+ M3 x: R l, o
利用浏览器原生的API,封装成一套更加面向对象的Selenium WebDriver API,直接操作浏览器页面里的元素,甚至操作浏览器本身(截屏,窗口大小,启动,关闭,安装插件,配置证书之类的)5 i4 J4 [6 m9 c! G% o& y) S
8 _( a4 _ w+ C f9 r
" P/ P% ?' C$ }! E& e2 cselenium的安装以及简单使用! s3 l% Z3 c- s
以edge浏览器为例 参见这个blog哦,驱动chrome浏览器同理: D& `: l/ L) M) T! `, K0 \
selenium驱动edge浏览器
9 w* A( I, v B( K7 B$ D' a% A2 @ j( Q5 g- l8 A# {% h. Z1 x
* o. E) j, Y2 @4 \5 Y& B6 @+ F5 a. R
chromedriver环境的配置; Y8 u6 k u- f, X
windows环境下需要将 chromedriver.exe 所在的目录设置为path环境变量中的路径
@; ^$ n+ [! z' r/ [0 Dlinux/mac环境下,将 chromedriver 所在的目录设置到系统的PATH环境值中
1 v+ U- u0 A8 Z! a, aselenium的简单使用
0 @0 C7 j" L$ a% f k% R接下来我们就通过代码来模拟百度搜索1 ^+ T" Q6 J a" h- }7 X8 f
' n @* x- \0 a! u; q6 g7 h
6 U7 S: ?" c+ h! _# T$ pimport time
6 D7 }& d! S8 V. A0 C8 Jfrom selenium import webdriver
6 P6 j0 U" S: v
/ ?( C5 w1 r! z
& w* H2 @$ h, d# C+ P# 通过指定chromedriver的路径来实例化driver对象,chromedriver放在当前目录。
6 D% H/ ?$ H6 R* i0 }; {- ?# driver = webdriver.Chrome(executable_path='./chromedriver')4 D& i( K; N3 q7 \, l
# chromedriver已经添加环境变量
. K7 Z! ~' ?& t. p5 Fdriver = webdriver.Chrome()5 h" S) F6 ]! A4 ^
% U* j: l, N3 n7 z8 p" W# M, x
+ {3 ]8 }* u" @# 控制浏览器访问url地址
( B7 ]7 ?% F0 Rdriver.get("https://www.baidu.com/")5 g) A6 k& Z0 \7 H/ T
2 o$ g: T; W+ K% S4 k- j* v; y
1 g, p, i: [. L- ]/ M# Z! [
# 在百度搜索框中搜索'python'
2 w2 k7 \9 w. P! T. w% adriver.find_element_by_id('kw').send_keys('python')
, t+ u# f2 I% p4 h8 Q, h. D% A H- u% ?. {# 点击'百度搜索'
8 Z4 |, [; h: udriver.find_element_by_id('su').click()
A) _ l1 b; P5 X- b% U4 N* m W( K. f) e! p" \9 a0 o
' C' b- ~0 X" F5 i# X. T
time.sleep(6)$ _! |2 d i! \% K, i
# 退出浏览器
" J! l' D4 F$ ?driver.quit()0 g. }6 M4 C1 G* F9 _
1
0 q0 ~/ _* `: n4 \) ^& {2
; U) a1 L; h" B2 J2 k& o3
Y, ] {. o" O% N3 ~7 ]7 f2 x" ^- `4; I! ~5 L0 [ G. A5 ?. w
5
3 }7 D1 l5 l2 f8 K' i& ^63 l6 K6 V. H i. t2 ^
7/ `) y# ?$ y4 e! I( @8 g. o
8
' \0 }) m6 d6 }1 G! _! U+ X0 S9
, ~: m& S1 V a# `) I6 p10% f: R3 M1 C0 R$ s
11- h# J! n7 r# w& c% p9 s
12
( v( R* d3 }" r; N3 b9 s5 Y5 U13
; X9 d' L. q) b$ i. m14% j3 i6 R: |# v& `
15& k; _) L, E+ P
16$ i, i' w9 P& B% U0 E, f
17
@0 c1 U6 v7 D) M8 g# o2 F18
6 l7 {/ I/ u3 r0 `% N) `19: p1 Z4 N; |* x9 X( V5 H
webdriver.Chrome(executable_path='./chromedriver')中executable参数指定的是下载好的chromedriver文件的路径2 Y, i5 F. x5 Y1 m; Z' g
driver.find_element_by_id('kw').send_keys('python')定位id属性值是’kw’的标签,并向其中输入字符串’python’
* K/ l" @$ M0 n& e7 [; ?$ _: H9 \driver.find_element_by_id('su').click()定位id属性值是su的标签,并点击, b! g: ~3 Q- z" Y
click函数作用是:触发标签的js的click事件
0 {* r3 M1 e% s8 n1 T值是’kw’的标签,并向其中输入字符串’python’; C7 r0 I" G3 C3 d
7 D& J5 p) i/ R j
; q6 N0 }5 ~5 u# f; S' M3 @driver.find_element_by_id('su').click()定位id属性值是su的标签,并点击
3 b1 G8 ?8 @1 y' V- b8 W1 Nclick函数作用是:触发标签的js的click事件 D. S5 S( A8 n2 ?! C7 R, T
使用xpath来提取数据,爬取数据的简单语法。( @! R3 U( i7 E3 E8 f2 ^7 k
0 ?5 Q, P* i H, k4 `; K" L k3 ?/ T( ^7 q) l, ~4 q
lxml
& ~5 n" C2 T4 Q# B3 g' Y! g: d" u
6 [1 g F5 f9 @& M" s* T( V4 Z2 P" C# Q$ ^' }
# _3 |4 r+ a. R, E
# ^0 }' {! B( K% Y0 `
requests官方文档 https://lxml.de/0 B4 @) \2 L* m* j( H4 f9 a
" w n* l) b4 N% p" @2 A
1 R3 p* p) b( J/ L6 u7 s# jpip install lxml
( }; x0 r" W. B' b* _5 T1
& x) u) `' y5 ?2 X( K( T5 s0 F导入模块
, z7 K2 L0 C9 s& v1 mfrom lxml import etree8 l- ?* T7 H- [1 S8 N
1
9 s& f e5 g8 [, l G y利用xpath获取text或者href内容
' k( S$ i5 s( `& x/li/a/@href 这样取的应该是href的内容
8 r5 x( v5 U7 H& Z. ~, u/li/a/text() 这样取得是text内容4 X: K0 j+ M$ c2 X# }
1, V3 z. G' ], O+ N! B" F
2
& _( a% c; o. I; z- C0 E. U* q1 {etree的使用
9 r. `2 W. I/ g- v4 C1 }h=etree.HTML(response.text)#response.text是网页的源码
" c5 Z; X( k8 P) d |h.xpath('//img') #寻找所有的img结点, E6 T* v2 m0 M
h.xpath('//div').xpath('.//img')#寻找所有div下的所有img结点
& v7 H* X2 @0 b% j4 {' V2 w' n; [17 c- q+ A" k8 ?- L9 X1 n. x1 r
2
& _+ g0 W$ R, V9 r- ]; S3
) [ e# F! H$ ]/ m# S2 ]) a/ Fxpath的语法+ y$ p) O/ w9 s; P4 e
符号0 H& z- x" s% c8 X
XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。
! e% Q& e4 m& S3 C, ?8 G- i
# t# l8 T% I: p) `: t+ e. \, ^( ?; B- g: `3 k+ `
表达式 描述
; L8 n& V( y# _) m7 Q' ]/ 从根节点选取
8 G8 S7 s) h Y// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。2 K$ U$ N' ~) o$ t
. 选取当前节点。
$ A, \7 f4 U. l3 \% u; P! c. . 选取当前节点的父节点。- w8 k' X( d8 P: m6 t' l9 l ~
@ 选取属性。
$ L: k4 w6 B+ q' R" [| 在两个中结点中选择
0 p& z6 Q1 {4 K! ~% I( j() 用()来包含|8 D& f" \; T* i( y4 {6 H
* 包含所有元素& r# v$ |7 m3 }( M/ a
not 取反. a( f& ?2 x3 ?# q* g4 f9 V& V
实例! O- E3 J7 c0 {/ u+ H3 c
$ J( @6 N- {' \. W9 U
. S( }! ^+ h1 J) m+ m$ \- k( t路径表达式 结果
- q& ?* _ U; [" Z8 Hbookstore 选取 bookstore 元素的所有子节点。. P0 c! @+ M( [3 ^! h2 f' e
/bookstore 选取根元素 bookstore。注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!
4 S. m5 {5 i. `& y7 [; b Kbookstore/book 选取属于 bookstore 的子元素的所有 book 元素。9 [7 [: J) p; w$ [% Y3 u# _# F
//book 选取所有 book 子元素,而不管它们在文档中的位置。
$ u6 n4 j& K- r" ?bookstore//book 选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。. g4 W& B$ C! H2 t" o/ B
//@lang 选取名为 lang 的所有属性。
5 `, x& \7 R2 ]//*[@class] 选取带有class属性的所有元素3 q: [$ s! Z. h* n* S
//div[@*] 匹配任意属性的div元素, f9 p Y v% p
//a[not(@class)] 匹配没有class属性的a元素
# V( f' U/ }7 I! N谓语
: z* f3 c1 p0 p带谓语的路径表达式
$ G U: t5 y4 j
9 X4 t4 G5 [. t: k8 o4 u
4 X r- _" ?! t5 Z7 v路径表达式 结果# P9 h, i: t0 N
/bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。
f6 m" ^1 G5 G% Y/ V+ ?5 W/bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。
* i- [6 H1 |. z) `% K+ ^9 p/bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。
6 K& }3 Q6 D, Z- j6 h: l* I/bookstore/book[position()< 3] 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
6 z, l) B7 R7 r//title[@lang] 选取所有拥有名为 lang 的属性的 title 元素。
% t2 n0 K/ {, |# T* O \//title[@lang=‘eng’] 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
1 Z* y7 L* _4 A3 R9 g/bookstore/book[price>35.00] 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
9 P8 @; E+ ]; y/bookstore/book[price>35.00]/title 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。
0 N* P8 _5 p( A# l————————————————
0 D/ A, @+ Z/ H' V9 R# g版权声明:本文为CSDN博主「北山啦」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
* `1 I4 i* M: M原文链接:https://blog.csdn.net/qq_45176548/article/details/118187068
8 @; f( v6 x9 L" V! A1 Z h7 I. g4 ?
* p, K7 t$ H& `7 W% N
|
zan
|