QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3180|回复: 0
打印 上一主题 下一主题

[其他资源] 基于Web的爬虫系统设计与实现

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-14 17:06 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    基于Web的爬虫系统设计与实现
    4 s/ H$ B( h* _( x* [4 V
    ; m6 H# j' a& ~, W全套资料下载地址:https://download.csdn.net/download/sheziqiong/85585280
    8 \8 U9 }  H5 J9 S7 Z& q全套资料下载地址:https://download.csdn.net/download/sheziqiong/85585280$ K2 A3 E( ?2 H
    目 录8 S  I0 L. }# w: B* N: }, O
    1 绪论 15 I* d/ P: x0 c) Q. r7 |7 c' |% O
    1.1 选题背景及意义 1
    $ S' j% M, J0 Z1.1.1选题背景 16 s. v' s9 s! j$ E: g
    1.1.2目的及意义 1! @* Z2 I$ J6 h
    1.2 国内外发展现状 2
    % ]" V( l% W0 ]7 R& n1.2.1 爬虫技术概述 2
    # T' a9 T, X( H4 a7 K1 _  a7 S1.2.2 爬虫设计者所面临问题和反爬虫技术的现状 4
    " ~0 u$ H& z/ C, g" A1.3 研究主要内容 7
    3 ^7 w; \- ?/ a* I# s; u0 p1.4 章节安排 8
    # K4 \$ e; j+ d% o2 系统开发环境及技术介绍 9
    6 [" ]4 q1 p/ v: S  n2.1 Robot协议对本设计的影响 9- O7 ^) R; x7 I0 e+ h9 X& L
    2.2 爬虫 10/ n  l* z1 T" E- I/ y1 G
    2.2.1 工作原理 10' Q+ d" P& i$ f) b
    2.2.2 工作流程 10
    6 ?) `) \( Q: S& y& R1 l" ^2.2.3 抓取策略 10
    ( o$ ]: v3 G- g1 E0 L: u6 c2.3 Scrapy架构 11# @! f- E( A! U1 E) x, B* Y7 x* R
    2.3.1 Scrapy:开源爬虫架构 11" R9 i8 E) W5 W1 X% Q  F: s
    2.3.2 Scrapy框架结构 11
    # J4 D# z5 Q$ E8 P& L2.3.3 两种继承的爬虫模式 13, z, M: A  @# f& x, Q+ X8 \
    2.4 MongoDB数据库 145 M9 _1 S6 M8 h: m# Q# a3 e
    2.4.1 NoSQL数据库介绍 14
    7 U  P: j6 [5 ?+ K- t2.4.2 MongoDB数据库介绍 15
    6 N( [; Y4 E) E2.5 python web框架Django 15( ?1 k8 W' A+ v; D8 r
    2.5.1 Django框架介绍 15
    4 H) i, C9 s3 t4 I6 d8 Q2 e2.5.2 MTV模式 15
    1 w# n6 @% m( M2.5.3 ORM模式 151 {  B* M2 u9 @/ a; R$ e
    2.5.4 template模板语言 16
    + k( M: V4 V) k* ]; `2.5.5 Django工作机制 16
    # v4 ^7 G6 _$ n1 \2.6 semantic UI开发框架 17
    3 h4 ?" Q6 k7 r2.6.1 semantic介绍 17
    " B# {) K$ Y) T# J3 \' w# d2.6.2 semantic开发 170 \  s3 _) G( ^1 _! B+ X9 f; A
    2.7 高德地图API 17
    & U" v, D6 I/ K3 {- ]7 R3 可行性分析及需求分析 19! f1 j# V/ K& B6 q$ u# i& F7 Q
    3.1 业务需求分析 19% X" P  E  U3 P, {" |& f
    3.2 功能性需求分析 19+ m2 `$ x; H3 J; {8 {
    3.2.1 数据爬取功能 19- I& H) K! o: S. G2 y( @' Q3 s
    3.2.2 数据可视化功能 202 e! @/ Z7 b, m4 a7 p/ C) ~
    3.3 可行性分析 21
    # B( {3 F! \0 `7 J3.3.1 技术可行性 21
      L2 r5 o- N; [2 Z: c- o' C3.3.2 经济可行性 214 I8 J- d1 a4 ?: h/ v) o
    3.3.3 法律可行性 22
    " t1 ~  z8 y. L. x3 h2 P0 q- U! J1 O4 总体设计 23
    - T, D6 K4 F4 J4.1 系统逻辑层次 23; q" \& a" a3 c" W' g0 {
    4.2 系统分布式设计 24
    5 o7 X2 @1 s3 K" C9 y4.3 系统功能设计 256 Z6 u% Y; h: u- z: t, t( m
    4.4 系统数据库设计 26
    # a* Z; k; G3 [! s; P- i6 ~( @6 A4.4.1 数据库环境搭建 261 V0 H9 m0 ]3 b* h% C
    4.4.2 数据库表设计 27- J9 g7 o  A, @! o
    5 功能模块的设计与实现 28
    9 W  X; G7 y2 k7 N6 b6 [7 ^5.1 数据爬取模块 28
    7 n, `( {/ J' Y% P. m5.1.1 爬取策略的设计 28
    2 z" _: k) p; L! J! H5.1.2 网页数据提取 30
    4 c- @  Z! S, I' L5.1.3 去重与增量爬取 32% u3 c) J" T5 `" {
    5.2 反反爬虫模块 33
    " L- ?% V3 b8 X4 y* S9 e/ U4 o5.2.1 模拟浏览器行为 33( f- s9 Q1 V( f7 p! O. _  [
    5.2.2 动态代理IP 351 L3 V4 T: Y5 U# g  R( b
    5.2.3 爬虫异常处理 366 P, s1 x; @3 v2 Q( ?5 x
    5.3 数据存储模块 37
    0 l8 k  U7 S) g: w0 t6 ~  f8 e5.4 数据可视化模块 38
    5 e5 C1 Q; u& e) B+ L6 功能模块测试 42
    9 k0 W& i( O; b$ P0 L6.1 测试环境及工具 42
    . L# c9 g1 S8 ^, @- i6.2 系统功能测试 42
    0 }$ |. m- k( Y* |# }$ Q# @6.2.1 数据爬取功能测试 426 s/ V1 t# G8 W- H7 g8 j
    6.2.2 数据存储功能测试 44
      Q6 v: I% q* j& B# u! ~6.2.3 数据反反爬虫功能测试 46
    , m! B4 G3 S) {& Y. s6.2.4 数据可视化功能测试 47! V+ Z8 L0 c. P' G" t) S
    结束语 483 R. l  T0 |3 D& K
    参考文献 49' C  l: }% X8 l" X" l- N) K' ]
    致谢 50. g. D# [6 R0 u6 F2 p8 a. c
    3 可行性分析及需求分析0 G& U& e& ^2 V6 d% A
    3.1 业务需求分析
    % Q3 O$ D& Z9 \, h0 x! d) s/ T本次通过对链家网广州二手房房源网站进行了研究分析,目标实现一个房源信息爬取的系统。本系统被用来解决互联网上关于房源信息繁杂,房源信息分散,无法通过短时间的用户浏览获得所需要的所有数据,其房源推荐系统数据来源严重不足等问题。本系统的目标是将链家网广州二手房的房源数据爬取下来,存储为较为干净的数据源,为房源推荐系统和数据分析者提供房价分析所需要的数据。9 a; t, v  i0 @& \& \$ ^
    本系统的基本业务是围绕二手房房源信息展开的,应该完成的基本业务功能应该包括两方面的内容:! g/ [! O# z5 @2 }- x, t$ Y) \: l& k
    1.系统需要爬取链家网上的二手房房源信息
    0 h4 f8 u! c  A: f) M9 i* O本系统本身并不生成房源信息数据,它所获得的房源数据来源是互联网房屋交易网站链家网。因为链家网并不向用户开放自己的数据库,所以系统需要通过爬取技术将来源网站上的所需数据获取得到。5 p3 g9 x( d/ t9 \
    2.系统需要对爬取到的数据进行数据可视化
    & y: v/ a$ x3 k$ T5 h本系统获取到的数据是存储在数据库中的,当需要对爬取数据进行查看时,特别是爬取到的房源数据量很大的时候,数据查看很不方便,而且数据库浏览界面太过单一,无法突出数据特点,所以通过使用界面以数据可视化的形式将爬取到的房源数据展示出来。6 n1 c7 ^, M& C$ d/ T% l' Q1 l
    3.2 功能性需求分析1 w. S& W, c$ t9 G; r' G& c
    3.2.1 数据爬取功能) F! a! [( x' c& M1 @0 t6 X" \
    数据爬取功能是指将房源信息数据从数据来源网站爬取下来的功能。本系统是面向二手房信息的分布式爬取,原始数据来源于链家网广州二手房。分布式爬取是使用一个Master服务器和多个Slave服务器快速的对网页进行爬取,加快爬取速度和效率;Master端负责对目录页中的URL进行爬取和存储,Slave端负责对详情页的URL进行爬取和存储。+ O) n% r' M$ k
    2 m/ _& i) {2 ~2 U- U2 `
    import scrapy, e- ?% p, ^$ n4 y) O
    from scrapy.http.response.text import TextResponse
    , D, j% J- l% I* Ifrom datetime import datetime, c1 ]; y0 v' H) h" P7 p: Q
    import hashlib% i8 D* m% Y" U, q5 n1 y

    / h; `) I: J# n' X6 W2 Yfrom scrapy_lianjia_ershoufang.items import ScrapyLianjiaErshoufangItem+ ]( @$ |0 Z1 n

    6 Q' G4 t/ a* W! F  L% _! C) n' @/ u
    class ErshoufangSpider(scrapy.Spider):
    7 M9 ^8 M6 D1 E% U    name = 'ErshoufangSpider'# |8 [8 v: p' Z; D2 F% `5 V: P2 X% u

    : H* d4 ?1 N5 t7 {' _! l7 @    def __init__(self, name=None, **kwargs):9 z/ j3 v+ ~# L' G4 O
            super().__init__(name=None, **kwargs)4 b8 G/ b) a0 H& D
            if getattr(self, 'city', None) is None:
    ! Q; K9 P, i* ?; g9 @! p. ]/ O- W            setattr(self, 'city', 'sz')4 M+ |* O( M$ U
            self.allowed_domains = ['%s.lianjia.com' % getattr(self, 'city')]+ x  p  t: Q3 O0 T  U! Q
    ! o$ Y4 u% g1 L" a
        def start_requests(self):
    ; j( J4 {# |( E' P' |, d) Z        city = getattr(self, 'city')
    0 o8 G  [' D+ Q  b        urls = ['https://%s.lianjia.com/ershoufang/pg%d/' % (city, i)6 C+ _+ ~* g% i  K
                    for i in range(1, 101)]
    1 v% f, Z5 O+ Q* a3 O& F        for url in urls:
    ! _! Q; f3 v' g/ e2 ~6 m            yield scrapy.Request(url, self.parse, headers={'Referer': url})
    7 X" H  w: }5 {+ P3 ]
    7 X% x6 _) ^6 X/ k1 D7 o, m4 _    def parse(self, response: TextResponse):
    & d$ ~5 R3 t1 z0 ?9 ]  [3 v; {        items = response.css('ul.sellListContent li')
    / V, Q: O; N' ^0 R        for li in items:9 v- m: r& A% ^
                item = ScrapyLianjiaErshoufangItem()6 n% D/ l' n& T! u7 O; @
                item['title'] = li.css('div.title a::text').get().replace(':', '').replace(',', ' ').replace("\n", '')" |, F; c/ y8 i/ c: f) l1 u
                house_infos = li.css('div.address .houseInfo::text').re(
    - X. _2 }  A" }7 d8 ^# O& C$ K+ ]+ }                r'\|\s+(.*)\s+\|\s+(.*)平米\s+\|\s+(.*)\s+\|\s+(.*)\s+\|\s+(.*)')
    : G8 h& G4 G3 A- ]& q( t, s            item['room'] = house_infos[0]  U; V) J: d6 Q' V; ]
                item['area'] = house_infos[1]
    + ~0 H! Z- p4 C0 C8 E* _  o            item['orientation'] = house_infos[2]
    . a7 t7 `5 O/ H) o- v            item['decoration'] = house_infos[3]
    $ ]/ K* |2 X9 i& Y            item['elevator'] = house_infos[4]2 {3 B% S( [( L& H8 ^) K
                item['xiaoqu'] = li.css('div.address a::text').get()" }( n9 ?: W4 U/ M
                item['flood'] = li.css('div.flood .positionInfo::text').get().replace('-', '').strip()
    0 g6 w5 N  A! `* r            item['location'] = li.css('div.flood .positionInfo a::text').get()' X  Y: M5 h# c/ v
                follow_infos = li.css('div.followInfo::text').re(r'(.*)人关注\s+/\s+共(.*)次带看\s+/\s+(.*)发布')  {8 F+ n- m' q8 H" u5 c9 i
                item['follow_number'] = follow_infos[0]
    ) j9 B: h" T% }: p' l6 F" |            item['look_number'] = follow_infos[1]2 L; @7 |( n9 p2 V4 {9 t% R4 H
                item['pub_duration'] = follow_infos[2]
    & O+ I6 v, I" R6 z) v            item['total_price'] = li.css('div.priceInfo div.totalPrice span::text').get()3 P; M1 O# U% I: I7 ?% i$ u# D) w
                unit_price = li.css('div.priceInfo .unitPrice span::text').re(r'单价(.*)元/平米')- U: v, m7 X9 S( J' @
                item['unit_price'] = unit_price[0]
    ; k& X+ d' l+ E8 N6 P            item['total_unit'] = li.css('div.totalPrice::text').get()
    7 M0 @7 B* x4 w6 W2 B  [            item['crawl_time'] = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
    . E+ O# b. T( J) j, W            item['house_id'] = self.genearteMD5(''.join((str(item['title']), str(item['room']), str(item['area']),% m2 C' X- [: R  P  M
                                                             str(item['orientation']), str(item['elevator']),0 O& J* B: l5 K* x8 P7 Y2 ?
                                                             str(item['xiaoqu']),
    , ?7 J5 P0 y( F1 C& Y0 F, Z                                                         str(item['flood']), str(item['location']))))
    1 e' `+ e7 }0 m3 l2 t- i; u            yield item5 I& |3 y0 D3 [# z4 Y+ O( T2 ?" l
    0 \2 A: ?* m: M& T7 P- _
        def genearteMD5(self, text):
    ' S( Z7 m3 s/ f& b1 @! p        # 创建md5对象# E# Q% ^, H2 s# l/ ], @4 @0 c
            hl = hashlib.md5()* v( Z" K5 o# B
            hl.update(text.encode(encoding='utf-8'))
    0 o3 f3 a) P- U- L6 P( s, N        return hl.hexdigest()
    4 B2 T0 o3 I3 M6 V* U( B' y0 a9 H# r8 m$ p; M! y* L

    - g+ w2 I6 q; _17 K2 y" ^2 H) q3 c
    2$ f) m# k5 X5 m4 n5 `
    3  `  T# H' q8 a* C
    4; S+ R/ {1 t# Y: c7 `" C
    5
    ' x4 @2 D# L( R: P* u: P67 Z/ f- Q* g5 `+ F% S
    7
    & V5 |9 e% T( u, R8 j. B. ~; t84 _. c4 D* b, x, G
    96 Y+ Y! y! s2 z
    10
    $ B- I% b3 @" X4 x11; U- w5 k) z2 Z. L. `, U6 p: {* k+ S
    124 P2 s3 c6 [1 w5 F5 T2 n
    135 Y( [  }+ C# q! t1 n
    140 I4 T. Z. Z' u1 h. Y3 E
    15
    $ S0 |, g; e, i, Y16
    , J/ T' s  T$ J! ?178 F4 L1 s4 m6 H7 R3 N
    18- L$ y' {  K! z( f$ E6 k8 P
    196 n6 S( [2 l& C' A
    20, m! E3 S6 U- O: z6 c- v
    21- A1 M- C% n' q2 C' N9 i% x9 m* E: B
    22& b5 u# D$ n0 U& I
    23
    $ w+ q; R' j& b) D6 K8 z& W/ Q24
    2 K: Z9 W7 C# r  \& }8 L3 _: \25: l7 J9 L8 S/ r/ w5 {. a) |
    26
    * U* t' C; N) A1 z27- P+ S2 T- c5 @4 ]# z
    28' x$ E) q& b0 \! |# W
    29' ]: ]' A4 E" h6 E9 K
    30; H! J* W- t: L+ ~
    31
    : U$ J* y; u+ ?/ @# v- e2 n32) F& C) U( i9 E+ r' Z# x% n: T8 c/ m5 t
    33
    5 t* Z3 R0 a0 N! ~" Z34
    " {' J4 ]+ v( n6 Z35
    & I7 L; j& g. `- k* X36$ A2 r4 \5 l3 i4 w2 f
    377 S. v0 O4 }1 j4 ^7 W6 L$ J
    38; D4 O  k4 [+ P% A. n: r
    39+ A7 |' W- [( \4 c. A0 v
    40
    2 R1 _, S9 t* q' S4 f5 O41
    ' X! x3 C1 ?# Y+ R1 m- B42
    5 R& i) f% h8 H  U, m3 o+ o/ c$ G43
    + D8 G( f9 M( P2 W44+ Z; b  Q& @. u- E1 B# P5 C
    45: x9 K; Q/ C. D$ \% f2 ^- X
    46
    & z9 m! M' c# T! U47& m! j2 ?' ~; M7 F. {  |0 j
    48
    . B  f- L7 L: \2 z495 j& @4 S2 X8 D5 o
    50
    ( d0 K* }' M# H2 w# J" r51& c9 V' ]/ W/ k# P* R, M9 }9 x; \
    52
    + f% P: f: \# T' M* b. p7 x2 A% o53
    9 O- h! }$ H1 K  B$ Q/ Q54  b: o. }7 p! i1 H+ T
    557 u8 n& L9 B3 ~
    56
    ( S5 }& V5 B! A$ E57
    * m( ^" h0 X$ C588 V4 {' z( W. t, A, R( Y/ I8 P
    59( j+ O# n0 F( O* F/ _
    60
    , j' W  J% x6 {( h+ d9 ?1 h3 B) C( Q1 P6 u8 ^% O! R5 V- v" P
    % p. Q* D8 y; }0 {2 S$ n

    / r6 X3 D; U0 y( C* Q1 }
    3 j4 [* z( j8 x+ a' s. T. n. [0 h9 B" h+ R9 G( V! V' n: x* Z
    7 y6 x4 T+ ?# r2 k2 q1 P- P
    6 ^0 G1 K$ ~& t8 E9 y) }* S
    ) Z- f7 g; x9 f$ E: H+ l/ W

    : H7 _, k) ^$ ?
    / o5 u7 T8 f( R0 t; [
    ' c% n( [, d! C/ Z, s: i6 _
    . G- c  w6 P7 S: x, I$ H
    ' [. `7 z) u: |; a- q
    , C4 ^  P4 ~2 t9 N% [* j- [5 G  x1 F& o3 ]; `% a

    9 K6 c' R8 Z/ }* N全套资料下载地址:https://download.csdn.net/download/sheziqiong/85585280) L7 w% @8 {8 u+ q6 Y$ j' X
    全套资料下载地址:https://download.csdn.net/download/sheziqiong/85585280. ~- l( p; s5 [( X+ ^! s
    ————————————————
    / X' Y/ ?; d' `0 J: n5 n$ c$ A版权声明:本文为CSDN博主「biyezuopin」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。! x' s1 R; J: q1 ^  i2 z; k# z
    原文链接:https://blog.csdn.net/sheziqiong/article/details/126814418' ^0 Z: D; m( ]' C
    + n/ F2 U9 j. I; b, o

    . O) L9 e8 B* }: t
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-17 10:56 , Processed in 1.981953 second(s), 51 queries .

    回顶部