QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2744|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    ' b- I" R1 F( L, K6 m) F4 d
    . H5 Q+ z  D! t5 @
    " j" f% I; @0 m4 h
    Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
    8 H9 [' M3 u7 S6 w# a, D( T文章目录
    , s: Z6 y3 T0 T6 y+ d" n
    $ ~5 J( u1 y( n' z3 C( k( {项目说明5 Z" c! k) s+ |/ {7 G
    Scrapy框架
    : V4 S1 ?, h' J; v: F网页分析
    ' o/ Q! n0 f2 S% |; d1 |爬虫代码& E; R2 v  m: u/ C
    items- C) H7 Z: q- d+ |; X* i
    spiders
      m2 x% L( |5 R  D- |  Npipelines
    # J2 a$ l9 k& ?" y! Q0 q; Lmain
    ( n  R! h6 R* f; O6 y0 D爬取结果
    7 X" G7 X& B& {8 a& @$ kPowerBI分析
    ) V: R3 @' s3 }) G9 d" |/ k分析结果8 t" b# x, j- @, w# D; f
    项目说明
    - @) J' h/ i" D- e* X/ x' d, L' X9 V& \* y7 F( S
    近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。& V; w" L* u% H5 |/ {, s) @' c  [
    " t6 j  @. u' d+ V- W
    网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。9 C: c  ?5 W; S8 \3 X6 U" C! \
    . D- D1 C/ @* A, ~5 Z* w
    豆瓣TOP250图书分析5 N% B8 x+ d, D5 c# h9 v
    . V; e+ {" ]& ~  A
    该网址的数据会不定期更新,感兴趣的同学可以收藏~~~
    * T; x# d0 R6 T7 t6 T* i( h6 e5 m$ t( ~2 h
    Scrapy框架" F/ x; z: t; d6 |* P/ x9 M
    - {9 ^& o' y1 q; y4 I1 X
    网页分析  H5 R" D' i2 w0 P! D6 ?

    ! V8 t* y* o. `% @/ t1 k4 e: O浏览网站,确定要爬取的数据* Z- O( n* q3 }- P5 w
    1.png - K/ Q" G7 {& M3 ^, e# ?
    爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png
    % v7 w  G& l0 n6 {, u5 }( B7 a3 i* [3 M7 z- h4 L6 L' }- B! m6 K
    进入项目路径,打开doubanBook文件夹
    & {8 c: a2 x; h0 P8 e- y 4.png
    ' L0 w3 H8 e5 S* C4 }. d 3,.png / |! i" }) r7 M1 `! ~( Y
    3.png
    ( a% c# O: ?' ?& B; ]/ `$ U# L 5.png $ _( u, {5 \. O; F) M5 S6 E7 J

    5 A, s/ c+ P) ?. m% d% Q, R6 a" y% |0 C& V; k
    spiders 6.png
      T6 e; M* E" y$ Y# [" J; Bmain 7.png
      h6 ?0 Y6 i  K6 |: v; Y
    * b) b. ]0 H" ~6 C爬取结果; B( C& P; P  q: v3 r. ^8 P) D
    8.png
    % O9 U2 R; c" E- T) v& C/ o: oPowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈. x$ G* H: q; n. q2 E8 k; U& N) G
    % T8 u+ b8 }) r. M: ]0 k
    ————————————————
    . e5 O, q/ Z( h4 s3 M: }) @, V9 x版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    5 c+ l, L1 s, t& o3 w& k, C' r原文链接:https://blog.csdn.net/soleilxy/article/details/105931061$ h. a1 f2 M8 b! }! ^+ k
    , R7 q7 J( e! `

    ! U- d0 U8 \; l: \# E' D( \$ l% g* `

    14.png (138.88 KB, 下载次数: 732)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-22 00:34 , Processed in 0.433780 second(s), 58 queries .

    回顶部