QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2775|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    5 s( D6 G: H8 ~+ a& z; R9 k

    % W9 i' E8 ?5 Q+ o( I: F8 s7 e( I; A! C& ~9 l9 L! u
    Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
    9 R, i. Q7 V3 T  K文章目录8 ?" |: U, V- C0 {
    ) x; I+ t  n7 X+ n' ^
    项目说明) W! d& a! _, Z, H) O2 }0 g9 M& k
    Scrapy框架2 }" W; I! ~9 U- u$ m1 J
    网页分析6 G/ v: t+ t, j  c# E% k
    爬虫代码
    % X7 N' C+ ]) O! I; i8 J7 x# e. \items7 [/ Z* y; e- b; `1 L, A
    spiders
    % e8 [9 Q% Q: Y% I( X( hpipelines- G4 j. Y6 d3 r" ^
    main
    ! O: p4 V4 _  Z+ I爬取结果
    6 ]- N' d; H; e1 ]PowerBI分析
    1 v3 }$ O2 G) }4 o- @. ~分析结果
    ( m+ {. V2 K6 z项目说明" h5 P1 ]& m  w5 C) }9 W$ p5 t

    3 [/ r3 r! d) A: e% W0 P6 v, W$ X近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。
    2 g, p5 m7 V, W+ A* g( B7 [2 v( u$ _, S. [% {
    网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
    * A( h) `* g3 t% {1 Z3 ]/ T  X8 U
    豆瓣TOP250图书分析4 Q: `9 A8 O  G& q
    ) p" J2 ^3 q1 f
    该网址的数据会不定期更新,感兴趣的同学可以收藏~~~. X1 L( K! [+ X) \) i' B5 b' I' x

    7 e& f  O% h  M# F  G4 N* tScrapy框架+ c6 U$ z3 U+ m: Q- A" w
    : a" D2 V. b' B
    网页分析9 x8 p( B- Y4 v) _1 t2 z6 b
    6 X  M8 E) G# O! V! r. Q
    浏览网站,确定要爬取的数据5 u$ [. `4 [* Y1 N
    1.png
    & Q( [$ N/ Q* |& k2 y9 Z爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png ) B2 O# Z8 z! j9 y- r! R
    * R' F2 L/ ?& X5 Q* p8 F
    进入项目路径,打开doubanBook文件夹
    7 V  g$ ~; @: J/ F9 G9 k 4.png
    0 N- k4 R. `: i9 {# y1 |4 y 3,.png
    ) Y( P2 }: [$ D% n* f 3.png 4 Y# U& m, M: ?0 b! W- @
    5.png : H8 R$ t" b) g1 _" d

    1 Z4 _7 ]  k2 s
    * [+ P% W2 m; _+ H3 ~; Aspiders 6.png ' E' X4 g0 Z& P% y- }2 y& c2 z. X
    main 7.png
    0 d3 p& t( p9 d% R, V
    : a3 h+ H0 z$ I; T5 e+ B0 Q爬取结果- C6 }2 r- o1 h: y2 a' \
    8.png
    & e9 M4 G  L: oPowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈4 Q' M. ~3 U) G+ w
    8 _6 h3 B7 J9 T2 g
    ————————————————
    4 A; J, Z$ z: n版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    4 T: T& s3 }$ I* L/ i原文链接:https://blog.csdn.net/soleilxy/article/details/105931061+ X& ], f0 W6 o) L5 E2 {' v5 c
    + z" c7 `0 Y3 S7 P. r
    + {! s# z5 I0 S' ]
    . J' H8 i2 O$ A; r

    14.png (138.88 KB, 下载次数: 750)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-13 13:47 , Processed in 0.349340 second(s), 59 queries .

    回顶部