QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2512|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |正序浏览
    |招呼Ta 关注Ta

    6 d5 z: k" K' p# u$ ]4 l' l
    $ t: O! B/ j; O: p0 m* n! m& M4 Y6 W% P& b2 u$ z4 t
    Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
    ; v& ?5 Z* |7 ~" X. O3 S3 e2 d文章目录
    8 D2 P0 \9 w) _% A
    ( n8 ]- X3 f8 `项目说明
    $ i2 J1 h! D% K* AScrapy框架
    * Q) a. B3 K; V9 K网页分析
    ) o/ |/ l5 n2 d爬虫代码5 \* j) I7 Q& G+ V* I" {
    items  o0 @1 |# j$ W) [: |3 k2 d. K
    spiders  S* b1 P( [) a9 c9 J9 K, ?
    pipelines9 C3 v5 V3 ?+ {' q7 A. N
    main
    ! z6 G, q) n) I2 l  a, L  x爬取结果0 Y7 W6 U, V6 h- i
    PowerBI分析7 R7 a4 g% G8 c$ B( e
    分析结果
    1 ]* |) X8 ^+ K" K0 w2 I项目说明
    * P: v3 L5 m5 c, m: G% R# H2 Y% B" ^- q7 v" {! \
    近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。  i, v& s! L' c% x+ H) H- N8 q

    3 i$ _. S% F( u/ w+ Y% b" R网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。+ a( ^3 J8 C  q$ E' v
    : U4 J1 g; U2 i9 z. m: k7 z
    豆瓣TOP250图书分析% G/ J: L7 D  T. ]
      }8 M0 N  Q, A  G  }- p/ ?
    该网址的数据会不定期更新,感兴趣的同学可以收藏~~~# p, }3 \7 n- Q8 G  c2 Y

    / u- x( A5 b, I3 T' TScrapy框架
    " V. S3 ]: u) K  w) d/ n6 m+ {7 T9 ~0 k# U8 ~, C
    网页分析
    4 |" Q9 l9 \+ D# F9 E* f4 E* [; ^6 X+ G1 m) n
    浏览网站,确定要爬取的数据
    6 v: G  [" f4 v! @1 z# m9 k6 } 1.png
    8 Z& m8 \3 _! x! F0 |: s2 j$ W爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png . w6 o( f. Z; Z' v; @9 v

    % e0 e# j* S9 ^  B进入项目路径,打开doubanBook文件夹' ]$ |& O" Q) B- b
    4.png
    " ~: ?: Y' f, h" q! X7 s 3,.png
    # e. c0 E' n! Y. i 3.png - g0 o& R, X% `/ }/ O
    5.png
    ; E1 I( r0 c+ d$ u; S1 k
    * y) L$ Y" w" z2 L
    & _- T0 X1 P* {* Fspiders 6.png * p# V6 |% S1 p+ t
    main 7.png ) D$ r3 \$ m. L! b4 J
    " P8 e) |0 R: V6 y
    爬取结果
    " @( w0 q1 ^) C5 C* t1 y 8.png
    / H/ i, z5 Q& x( i) q& K9 aPowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈
      / U* I1 E4 j4 g8 X
    6 v; \1 x/ A9 \
    ————————————————* H2 ?# @+ ~9 e7 J: o
    版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。0 W% J! D5 r+ k6 j- ]
    原文链接:https://blog.csdn.net/soleilxy/article/details/105931061
    $ K% B# x4 ^/ }) v$ F
    7 I  \+ M: G, o. L7 J" s8 w- p
    : K+ ]$ t4 A, y, }5 ?8 }  {, I% s+ f7 ^+ _  G

    14.png (138.88 KB, 下载次数: 729)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-9-17 07:44 , Processed in 0.549956 second(s), 59 queries .

    回顶部