QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2780|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |正序浏览
    |招呼Ta 关注Ta
    - C  q7 f7 z8 E& S5 G9 z
    0 ]: s3 b! T/ g& z

    ; r3 l6 }' \8 b$ d0 UScrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
    + p2 S! u1 ~6 X6 R9 ^. B文章目录
    - G0 a6 I% i  }6 m; P- k: L, J# b; T0 F) t% z: X! ]  D
    项目说明
    5 M9 l! ]: R9 P; T" i' e; YScrapy框架! ^  `: g8 w+ ^6 I9 k
    网页分析1 `. ~+ x3 Y! n+ M* W8 i
    爬虫代码
    0 N% _# }0 `! _: y( B, Oitems5 Z5 @7 w9 k# |7 ]* B5 W$ I
    spiders
    3 @$ Z, f! N5 w, S" {+ U0 f+ opipelines. a! a" A; f( x8 j2 p; |  |$ {
    main6 f  l' m3 m7 I5 V
    爬取结果4 R  l8 W5 _* i/ Q3 o) Z, O4 T5 x
    PowerBI分析
    # v/ b- J" w# t分析结果
    & S. a  n3 I: I$ z3 O项目说明7 U; Y4 C! `5 n7 @

    8 i7 \2 M+ s6 U, A) t: Q0 a近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。/ u) \5 K3 ^. f( N) F$ A3 [
    6 \0 ]" l7 `( v- z4 G
    网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。) x3 Y! [; M" I# ]+ n2 p

    9 f+ u- \$ p4 C豆瓣TOP250图书分析
    ! z3 t; @! Z/ o) |# `% J
    % a1 |  @1 m6 r9 p1 M该网址的数据会不定期更新,感兴趣的同学可以收藏~~~
    % a4 V; C) k( \1 ?5 g* D) p7 u; r# E1 E" \' ~, M
    Scrapy框架
    5 I0 r& Q+ {3 ?9 r0 P2 K
    . c$ Z$ j" s! R, c% ]: E, }网页分析/ p- M+ }6 J- `3 `" U# O- g0 E7 `
    ' B. [$ i+ `: o+ \
    浏览网站,确定要爬取的数据( @4 v4 x. N, {) L% n1 z
    1.png 3 @% h3 r- X% l' S, G( ?3 p
    爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png
    ; h8 n' {2 E! c5 l2 L
    9 f6 `% b3 w7 N% @进入项目路径,打开doubanBook文件夹5 {+ n) T8 [9 B$ k
    4.png
    " s! |& G, F' `( R1 Y( l 3,.png
    - H# Y0 Q% ~: }+ c' H 3.png
      c8 m8 Y; `  i% p& H, \; b2 A 5.png
    / a9 K# I8 c; K/ H  S4 n8 w3 d/ C
    . x: a6 B! a- k. I$ W, D
    + i6 G, C  [, }* S  Z: q  Y4 _4 P, sspiders 6.png + {1 V  I% ?+ {3 f& j
    main 7.png ) @" w8 }! X9 y$ c1 _6 W
    ( M: L/ W7 j2 V- e- Q* J
    爬取结果
    4 J1 f. W6 I# F$ G$ N 8.png
    % I6 j; W' n' u) x3 C$ d/ @9 \PowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈7 G; N& \/ \( P% H3 H' R

    , H% V/ R6 R  H" N9 E; H————————————————. m! u* S* V( W/ X/ r
    版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。* g, o0 s- [7 f
    原文链接:https://blog.csdn.net/soleilxy/article/details/105931061
      o! {4 {1 ]- b4 O& J! a
    6 i8 a/ \' `, \4 N" |  n- t" ^( u% l5 w# Y! D" u
    / l  }1 |3 F% V$ l& {4 }

    14.png (138.88 KB, 下载次数: 750)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-15 00:51 , Processed in 0.359128 second(s), 59 queries .

    回顶部