在线时间 1630 小时 最后登录 2024-1-29 注册时间 2017-5-16 听众数 82 收听数 1 能力 120 分 体力 564561 点 威望 12 点 阅读权限 255 积分 174591 相册 1 日志 0 记录 0 帖子 5313 主题 5273 精华 3 分享 0 好友 163
TA的每日心情 开心 2021-8-11 17:59
签到天数: 17 天
[LV.4]偶尔看看III
网络挑战赛参赛者
网络挑战赛参赛者
自我介绍 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组 : 2018美赛大象算法课程
群组 : 2018美赛护航培训课程
群组 : 2019年 数学中国站长建
群组 : 2019年数据分析师课程
群组 : 2018年大象老师国赛优
}' s: U: R4 {( r+ s: Z3 g- d Python爬虫常用小技巧之设置代理IP
2 x( C7 }9 F- g! V, F7 y6 r
4 K8 `, @# \! K$ U/ w! C, V 设置代理IP的原因
4 X& G% G& u+ z' [2 R" R 我们在使用Python爬虫爬取一个网站时,通常会频繁访问该网站。假如一个网站它会检测某一段时间某个IP的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理,这样便不会出现因为频繁访问而导致禁止访问的现象。 8 l o7 B" e' ]1 |
我们在学习Python爬虫的时候,也经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败。高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,所以下面这篇文章讲述一个爬虫技巧,设置代理IP 0 I( g6 M. x* d
代理的获取有很多方式,网上有很多免费的可以去爬取一些试试,但是免费的代理使用起来也是 很吃力的。还有就是现在网上有很多的代理供应商,可以在网上寻找下,然后找家靠谱的使用。毕竟网络太大了,代理供应商肯定也是参差不齐的,所以找到合适的代理还是需要花点时间的。在这里我就是使用了我们长期使用的一家质量好的代理,亿牛云代理,而且是使用的他们的爬虫代理(动态转发)和一般的api模式不一样。这种更简单更方便,对于懒人来说绝对是最佳选择。 8 f: l) g( ?$ E+ D; m8 i
具体代码的使用 ; r4 [5 p# N5 }( f0 ], a* e2 s8 K
#! -*- encoding:utf-8 -*-
' z9 L+ |: M- e3 u: b " I/ u. n8 }6 K
import requests
! D5 C& y6 A+ ^; W1 `' c* k import random
7 o4 T, _4 q) Z& f) `1 S5 g9 @- P% R
! T, y9 k/ X0 p9 I$ V # 要访问的目标页面 # b$ A2 w$ M" k$ z- i7 D7 `$ s$ q
targetUrl = "http://httpbin.org/ip" . B: O8 i1 n2 U7 H
* [2 ?! r! ]0 ?) Q; M
# 要访问的目标HTTPS页面 ' u& r9 s/ a$ Y1 P
# targetUrl = "https://httpbin.org/ip" ( v( I' n1 |& F0 _
8 b3 [9 l8 Z+ i8 [% h( H # 代理服务器
: t" d; S, u* k proxyHost = "t.16yun.cn" , K* X: |7 M, V+ k
proxyPort = "31111" 2 l& L: U/ x* t
0 s H& F1 A; Q$ |5 P; B # 代理隧道验证信息
- B/ ]; F e2 I3 S4 u- c proxyUser = "username"
) Y" l' G6 A' j, K8 w% V1 m proxyPass = "password" $ Z- D$ ?- ?- f" j" `) E/ m
3 \( y% |3 D+ |/ n" x proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
$ t$ a3 W6 R; q0 w1 z2 R "host" : proxyHost, ' c; L3 z( q! h" ?! A+ D* P3 l8 Q0 C
"port" : proxyPort, : Y4 w! S) L8 w1 d2 P) b/ v
"user" : proxyUser, 9 @5 Y. @/ t- i8 w
"pass" : proxyPass,
% G, T! ~0 n% W m } 2 E$ U& f2 a+ C* S+ Y3 \
6 q5 b t+ W5 i+ O6 Y# Q$ N # 设置 http和https访问都是用HTTP代理
% L* x' k0 F6 ?2 P proxies = { 8 ]& [3 U% U6 R) Y
"http" : proxyMeta, 5 e7 P! I2 d- L
"https" : proxyMeta, 8 n( i3 k& _( J9 _
}
8 s) t* T8 j7 Z+ U* ` 7 z6 n7 G6 C( h$ }' Y, w+ q& T+ x
+ a2 d4 d2 b- ^5 k& u9 {- o3 |
# 设置IP切换头
! G# O; A$ j% P% a: H0 F3 p6 _, K tunnel = random.randint(1,10000)
; B/ V) E3 Q% g$ E% @- y; C$ O+ a headers = {"Proxy-Tunnel": str(tunnel)} # m# l& X- h0 H
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
) e& k$ m6 s) k! s9 x
) q* G+ s5 \4 E, m; r' `; n print resp.status_code % {9 `1 S. E7 c7 ~' i
print resp.text
7 ?" o8 i6 _. s8 L, \ 总结
0 i2 `( b$ i4 f/ o7 O6 N5 a$ ~ 以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流 6 l1 f* W. m- }+ G% B2 W3 U$ n9 n$ d
! Y& V( x1 q. o) J2 q
zan