QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2740|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |正序浏览
    |招呼Ta 关注Ta

    : z4 @+ G" K3 R: a& T; B% w0 D/ g% `  E1 N! ]3 X/ W$ f+ F

    + G6 ?* l! J( B: \) ^. RScrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
    # J) f5 s4 A: b) w7 {文章目录" a& ?4 T+ t, {( L
    + N$ Q0 `" B) j2 |
    项目说明( z& _2 l# i' \8 h4 D+ a' Z
    Scrapy框架
    9 M  \, E$ E+ H3 z; ]4 ?1 e; G& q网页分析
    ) S( n* K7 s9 X: u! p$ }爬虫代码
    ) h; @) h/ u2 w& K  @1 g5 oitems
    . D( x6 ]: t: f) ~spiders
    # T; ?* q" I* ]) c* npipelines
    / V6 q5 J; K- l! R" v  U& p: Omain( B; B; s9 Z, Y" g3 ~- Y9 c
    爬取结果
    8 v) A5 E  l' @PowerBI分析' @4 I# {# t  a5 Q3 g- B7 ~' d
    分析结果, i  T5 u! u/ ]6 t9 |8 r
    项目说明" E; D* `+ s! c+ j! O7 `

    3 a- X$ A( S0 Y7 G  F6 v近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。% m+ c  @! @% A6 W! C) j
    ( E' k3 e  m- G  K
    网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
    . l+ S  z# L" I6 ?
    % U* M8 _, t2 k5 P$ R' c# M$ H+ K2 }豆瓣TOP250图书分析* p4 k3 z& y3 y- i, Y( F1 j- B
    2 V: F" h' C7 `# ]
    该网址的数据会不定期更新,感兴趣的同学可以收藏~~~8 p" G8 @1 S  i. {. j0 t# [

    7 ?2 E. J8 \5 q$ L( @1 r. i& ZScrapy框架( ^3 ?. V0 r/ ^# D" n0 O4 v6 d

    $ p9 Q, d, X' O/ a' @6 ^网页分析4 l3 Y- ]; C/ m) {
    . ?: V' W* u+ O* A4 z# A
    浏览网站,确定要爬取的数据* s$ d) Y/ z! O1 }% }7 m
    1.png 8 q; U6 H. I8 b8 k
    爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png
    $ x8 A- [# {9 W& l6 g/ M$ A" l" G+ S" H4 N' i- u" K
    进入项目路径,打开doubanBook文件夹
    - Z) W3 D; `: }8 j) ~ 4.png
    / q3 X$ f5 ^! S0 l 3,.png
    : e% D4 I4 S2 h$ K  p9 j 3.png
    $ h$ f9 X/ ]' \# O5 Q 5.png 6 U1 I5 {# s+ e/ p) Y
    / M, C9 [6 M/ @3 f% w2 S: e" A# X
    * [/ ?5 \0 U$ K( H: v% c8 _! Z
    spiders 6.png
    - _/ M9 T' s! K. j; R. ^main 7.png
    . Q/ P- }9 d; }  L! B6 j' b* o- X
    + N2 T6 Q3 i1 P, c( W爬取结果3 N% B; P" c% R% k( b; }# X
    8.png 5 ?4 k% y* q& |6 O7 J3 L' H8 \6 N- x
    PowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈) Z9 C6 j5 U9 h5 n: v

    , ?7 |  @) A7 Q6 {- ~9 [, T7 [————————————————, P: r9 l/ M/ z2 S1 B2 R" {
    版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    3 z( r% G2 i/ B2 v9 }7 K5 ^8 m4 q原文链接:https://blog.csdn.net/soleilxy/article/details/105931061) s4 @1 d  e) M+ K* W

    & E$ ~# Q/ X& Y9 r; X4 `
    ) p% P9 _) G* L' U$ I% Y
    ( P, A/ F0 }' E

    14.png (138.88 KB, 下载次数: 732)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-15 06:04 , Processed in 0.435530 second(s), 59 queries .

    回顶部