QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2782|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    " R& c9 E) U; x8 Z5 z! J" Y

    4 H' r" A8 j: E, P5 r3 R! R; `
    8 m% q8 s7 r! t3 \Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析' n. e2 W8 i4 a' d: b0 W9 K: I
    文章目录- O3 i: X! e. S! F

    4 }. D) ]- m. G) j# t项目说明
    3 t! B8 U$ A: Q! X6 i, G+ gScrapy框架
      K+ J' {) v1 `9 a2 I网页分析  t+ h7 k7 Z$ B# g# }& m% h
    爬虫代码
    , O% R$ V/ e8 m1 e/ ?/ xitems
    ' J& F7 I6 {0 Z5 |  M/ R& |spiders' V' c" k! s3 u* ^
    pipelines
    + R: L* n6 I8 m7 Smain5 v' ~7 k% p+ Z! C8 U( F7 ?
    爬取结果
    * [, m9 }) u$ C) V4 q! J  m% ZPowerBI分析3 ^2 J# [! B" f. Q: d  o& ?
    分析结果
    . ]8 G/ y1 H; K, ?项目说明) X1 M# v( a) o6 e

    , u! ?/ u9 K" E. G6 }+ y" T近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。/ T% n2 N: V( Y& M- \! [+ B
    2 l4 R- o) _3 X. `+ `
    网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
    9 s' K: |: i1 F! G0 b& i
    # _3 U- f# \* t+ u1 D2 {4 \( s豆瓣TOP250图书分析
    " l& `# y7 T/ K) l7 O0 i: |  c8 D: |: K, G, T
    该网址的数据会不定期更新,感兴趣的同学可以收藏~~~# F% K0 Q1 @) g5 y* \; O7 o0 Y. R9 u

    9 k; g* k, C. X9 o- \) n; R4 e  ^Scrapy框架$ k, {; B$ p" ~
    % b# g/ Z: j( w8 ^; E# ~9 g/ ~7 _1 B
    网页分析
    7 }* G$ H0 F5 I8 a: m9 K9 t+ I; j/ u" o3 `0 J
    浏览网站,确定要爬取的数据& [- |' c( r2 |5 f6 p
    1.png 6 U6 U2 `8 o: S1 ^% L# z
    爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png . g1 }9 @- _% ?$ G0 a/ a

    ! V4 |/ ?, i- y( n; ]进入项目路径,打开doubanBook文件夹
    ) i1 a* w( K. I. |. o# F1 V 4.png
    3 X) d; J6 t+ |6 M3 m% e1 V2 o 3,.png 2 m/ N9 M4 l  q) |3 q
    3.png
    # L. H3 g/ H8 |& \0 [8 `4 Z' v 5.png
    ; w' E* W% ~- `$ N. [! c1 j# i& ?4 u$ A! M; t: T& f

      V% d& T! a0 mspiders 6.png
      E' }- E) o2 Nmain 7.png
    3 p& M- k& T" B8 o$ D
    . f: K, S1 z0 `, L7 R( ^. N- B. T爬取结果
    7 J3 @7 e% Q( @9 ?) _* l6 x 8.png 6 s/ v( u" D$ Z* L6 U
    PowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈: k& c  O# d  t, M& b$ ]

    6 o. A+ z5 E( G; R: @8 A! U4 L9 l————————————————6 @8 [- }$ X, b1 K& D" E9 s# T) r
    版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    : _, @9 _+ A, q4 T1 o9 D8 }( r原文链接:https://blog.csdn.net/soleilxy/article/details/105931061) S0 O+ i) }6 Y- ^- O
    7 i: I- g& r% ?
    / h9 V' Z7 O) I. y; _
    3 Y6 G. X/ {3 o  s

    14.png (138.88 KB, 下载次数: 750)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-15 03:24 , Processed in 0.639879 second(s), 59 queries .

    回顶部