QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2783|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    , i! t4 l" b- C3 Y* o
    - F2 y3 Z4 N$ {4 l  B7 L8 x8 D- w; K; J
    Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析+ ^8 o. T* ?, y! ?. D$ A
    文章目录' Z* H1 x+ x, t" @
    " J, m+ o  b2 O. _$ Q
    项目说明, E9 r3 A" _2 A  b& b( ]7 i7 e
    Scrapy框架; K' m" Z( G- \( p8 @' u
    网页分析
    3 u+ R3 a6 J, ~+ O- @0 |爬虫代码, m# t' W# W3 C, I% ~9 [
    items# ]7 `  q; _: \( K+ ?6 K
    spiders
    6 e: n+ X3 Q. N7 a% c2 Wpipelines  U1 j' a2 C' ^
    main
    : n; c: ~: i% H- s6 u- B+ `6 X爬取结果
    8 t, z: N& N3 Z  \PowerBI分析
    3 g& F- Q/ A9 a" |  |分析结果
    5 F. f$ m$ t$ |, i- a项目说明
    ' a$ V* I( ~7 o- s, R
    # I- e3 E5 s' a" d, p近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。8 s6 ]& p; }, P; _
    4 Z4 D! Z  T. r, s/ G9 Q6 X9 _6 m
    网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。( _# R0 T) |$ q1 Z8 P6 R
    + n8 G! A# w4 M$ f! c6 |( g& \
    豆瓣TOP250图书分析
    9 P; g3 q& J1 a4 Z: H8 \! w( ]* p) p( l- Y, C- X; |
    该网址的数据会不定期更新,感兴趣的同学可以收藏~~~
    & b$ ^8 m. Z5 T9 p  T
    , O+ f  Q6 t. U# ?3 L. zScrapy框架* p8 r5 }0 ]7 g, V) d. H. J
    * x, p7 F% d" k9 i
    网页分析! w# o5 x4 B) V" M$ k0 J9 A
    4 N3 Q$ m9 e: e& {5 F6 Y0 ~
    浏览网站,确定要爬取的数据+ \# r9 Y4 N8 p! r# K/ c
    1.png
    ) M6 ?, ~: A( W6 m, w! A9 M0 e2 K* ]爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png
    2 P: x4 T1 o/ q4 w0 f9 B% _" ~0 u6 j5 ?
    进入项目路径,打开doubanBook文件夹9 \' v; L" d# D& ]5 G1 M4 M. v
    4.png   Y* D2 z! ?4 b8 N% L
    3,.png 6 ^: }3 S9 x# k6 M
    3.png / F5 P. `7 h2 _! P" B
    5.png 3 y2 h* I* t' E% ~
    * B  k# G) E; k6 w6 u2 o) Y
    6 v- N  A* w. o# I
    spiders 6.png 4 y: [% X' L4 Y' g4 E. |" N% @
    main 7.png 2 z4 q% h( Z7 j) y: w

    2 A, @$ J4 \1 R0 \爬取结果/ m- D: H! }- g: h+ q" s
    8.png 7 D! k7 s" J4 ~( v
    PowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈
      # r) x3 E3 o  }2 [0 T
    $ }5 S$ ]* D2 K) u  d6 F
    ————————————————
    ) G" J; P" m) R5 T( a* e3 \6 A" K版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。, h+ |6 }$ V2 }4 o" W
    原文链接:https://blog.csdn.net/soleilxy/article/details/105931061
    ( Z) n  b) O) n4 O6 v; g+ z) G8 @$ {. c+ f" {1 a; |. Y

    & i" C4 P, k! E: q0 C8 `2 c! I5 ]5 e! k: G

    14.png (138.88 KB, 下载次数: 750)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-15 07:48 , Processed in 0.323280 second(s), 59 queries .

    回顶部