QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 4862|回复: 0
打印 上一主题 下一主题

Python爬虫常用小技巧之设置代理IP

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-1-8 17:22 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

      }' s: U: R4 {( r+ s: Z3 g- d
    Python爬虫常用小技巧之设置代理IP

    2 x( C7 }9 F- g! V, F7 y6 r
    4 K8 `, @# \! K$ U/ w! C, V设置代理IP的原因
    4 X& G% G& u+ z' [2 R" R我们在使用Python爬虫爬取一个网站时,通常会频繁访问该网站。假如一个网站它会检测某一段时间某个IP的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理,这样便不会出现因为频繁访问而导致禁止访问的现象。8 l  o7 B" e' ]1 |
    我们在学习Python爬虫的时候,也经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败。高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,所以下面这篇文章讲述一个爬虫技巧,设置代理IP0 I( g6 M. x* d
    代理的获取有很多方式,网上有很多免费的可以去爬取一些试试,但是免费的代理使用起来也是 很吃力的。还有就是现在网上有很多的代理供应商,可以在网上寻找下,然后找家靠谱的使用。毕竟网络太大了,代理供应商肯定也是参差不齐的,所以找到合适的代理还是需要花点时间的。在这里我就是使用了我们长期使用的一家质量好的代理,亿牛云代理,而且是使用的他们的爬虫代理(动态转发)和一般的api模式不一样。这种更简单更方便,对于懒人来说绝对是最佳选择。8 f: l) g( ?$ E+ D; m8 i
    具体代码的使用; r4 [5 p# N5 }( f0 ], a* e2 s8 K
    #! -*- encoding:utf-8 -*-
    ' z9 L+ |: M- e3 u: b" I/ u. n8 }6 K
            import requests
    ! D5 C& y6 A+ ^; W1 `' c* k        import random
    7 o4 T, _4 q) Z& f) `1 S5 g9 @- P% R
    ! T, y9 k/ X0 p9 I$ V        # 要访问的目标页面# b$ A2 w$ M" k$ z- i7 D7 `$ s$ q
            targetUrl = "http://httpbin.org/ip". B: O8 i1 n2 U7 H
    * [2 ?! r! ]0 ?) Q; M
            # 要访问的目标HTTPS页面' u& r9 s/ a$ Y1 P
            # targetUrl = "https://httpbin.org/ip"( v( I' n1 |& F0 _

    8 b3 [9 l8 Z+ i8 [% h( H        # 代理服务器
    : t" d; S, u* k        proxyHost = "t.16yun.cn", K* X: |7 M, V+ k
            proxyPort = "31111"2 l& L: U/ x* t

    0 s  H& F1 A; Q$ |5 P; B        # 代理隧道验证信息
    - B/ ]; F  e2 I3 S4 u- c        proxyUser = "username"
    ) Y" l' G6 A' j, K8 w% V1 m        proxyPass = "password"$ Z- D$ ?- ?- f" j" `) E/ m

    3 \( y% |3 D+ |/ n" x        proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    $ t$ a3 W6 R; q0 w1 z2 R            "host" : proxyHost,' c; L3 z( q! h" ?! A+ D* P3 l8 Q0 C
                "port" : proxyPort,: Y4 w! S) L8 w1 d2 P) b/ v
                "user" : proxyUser,9 @5 Y. @/ t- i8 w
                "pass" : proxyPass,
    % G, T! ~0 n% W  m        }2 E$ U& f2 a+ C* S+ Y3 \

    6 q5 b  t+ W5 i+ O6 Y# Q$ N        # 设置 http和https访问都是用HTTP代理
    % L* x' k0 F6 ?2 P        proxies = {8 ]& [3 U% U6 R) Y
                "http"  : proxyMeta,5 e7 P! I2 d- L
                "https" : proxyMeta,8 n( i3 k& _( J9 _
            }
    8 s) t* T8 j7 Z+ U* `7 z6 n7 G6 C( h$ }' Y, w+ q& T+ x
    + a2 d4 d2 b- ^5 k& u9 {- o3 |
            #  设置IP切换头
    ! G# O; A$ j% P% a: H0 F3 p6 _, K        tunnel = random.randint(1,10000)
    ; B/ V) E3 Q% g$ E% @- y; C$ O+ a        headers = {"Proxy-Tunnel": str(tunnel)}# m# l& X- h0 H
            resp = requests.get(targetUrl, proxies=proxies, headers=headers)
    ) e& k$ m6 s) k! s9 x
    ) q* G+ s5 \4 E, m; r' `; n        print resp.status_code% {9 `1 S. E7 c7 ~' i
            print resp.text
    7 ?" o8 i6 _. s8 L, \总结
    0 i2 `( b$ i4 f/ o7 O6 N5 a$ ~以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流6 l1 f* W. m- }+ G% B2 W3 U$ n9 n$ d
    ! Y& V( x1 q. o) J2 q
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-2 22:37 , Processed in 0.569941 second(s), 51 queries .

    回顶部