QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2736|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

      p% D4 y& W2 ?# H
    & u* ]+ _9 `1 x' f" C4 D- B/ E" z0 u
    Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析& X) Z# _9 E* G: e% y" |
    文章目录* Q6 z$ D( e5 Y: ?) t, [

    % |7 s4 [3 d: {7 q3 E% Z项目说明  K. b: ^7 S; o0 n5 W
    Scrapy框架0 Y. |8 I; Q  A
    网页分析9 j0 u3 _8 t( I9 L1 b6 H- |
    爬虫代码
    3 t7 `+ s1 `9 X2 J+ R: O: T- @items
    . h) h1 Q0 F7 q& \$ Uspiders
    " U  H6 @2 ^  c% P' g) t, epipelines
    ; T9 r8 w& x. r9 l  Xmain, `8 f2 {) e4 t# ]) P
    爬取结果  i, A" t& y. |4 `6 N: H% s5 N
    PowerBI分析5 g0 X; X1 D* w( A
    分析结果* _) m1 E' p2 J* b" R8 o
    项目说明
    ( G0 x4 G; K* \6 M' S- h* c4 D/ I) ]: G& p
    近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。/ y) Q' z2 N( G; v: v& y
    ) L7 z8 {( v( t) T
    网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
    3 @/ G. U% L, M; B2 a2 j  \6 Y5 C1 q2 n3 w3 m: a5 \
    豆瓣TOP250图书分析
    " b/ ~; G' ~" I& y. B
    5 Y% |* Q+ {' t' ]0 v7 T该网址的数据会不定期更新,感兴趣的同学可以收藏~~~
    ! S& d* V% h* d) x- \. N" C/ N
    0 g$ d( {$ l+ m' T% S3 }9 X" BScrapy框架
    ) m3 B' {/ _/ s1 S! j* H1 O/ U9 n! f
    网页分析) N2 N5 ?, B3 G2 B8 r# z2 k5 c+ d" \" |: i8 J

    ) Q8 E* q( Q1 D, R) k+ X+ X" V! L浏览网站,确定要爬取的数据  M& p9 x# S7 S2 \  ?
    1.png
    . u3 Z; X6 z  J( F; I- i: m爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png
    - g) g3 S# x0 ^1 u! d4 s* E- S$ L6 k' J6 _5 X0 s7 u1 b
    进入项目路径,打开doubanBook文件夹
    / [: P# z+ @0 i" X) Y 4.png & J, O  M2 `7 v/ L2 E# f. l
    3,.png ' X/ R. k% G5 Y9 ?  P
    3.png ! }7 x9 W$ j% {3 r( K; X! A5 q
    5.png " Z- R, n  U8 X3 c2 q$ S

    ' {0 q" A; a4 I& h8 m  S- P2 R
      f8 z( ]: h" h. Lspiders 6.png
    . Z! ]7 `- j5 i2 |main 7.png
    2 S6 E, r" g) l$ C3 B$ I3 h1 H1 r* N$ y3 L" f
    爬取结果
    5 c$ G$ n! [  s( S1 @ 8.png
    & r/ {! q; ~7 Z' d+ IPowerBI分析
    • 出版信息列包含了很多信息,直接用power query清洗整理
    • 评分人数、评分两列也需稍微处理一下
    • 9.png
    • 11.png
    • 10.png
    • 分析结果

      说几点有趣的发现,时间截至2020.5(大家也可以随便点点,说不定就能邂逅一本好书呢~)

      3 R$ O+ `8 U/ T( |6 a/ Z/ B5 D8 X
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈
      7 e6 U( @  b1 x  ~# S; V7 P6 F

    / O& g! W, S: \- Z" B$ |————————————————
    ( r9 Z$ k7 ?# N版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。4 i2 N: P5 T. ?6 x. k% y
    原文链接:https://blog.csdn.net/soleilxy/article/details/105931061
    ) a. B- w' ~3 y) S* ~  l1 F3 p% s2 M/ E0 n5 N2 O* E7 _- f
    ' f( |* j) Y: b% M/ i) V1 R

    5 ]8 t1 ~; r5 U1 S: Z8 [

    14.png (138.88 KB, 下载次数: 732)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-11 16:08 , Processed in 0.384330 second(s), 59 queries .

    回顶部