QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2737|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    ( M8 G+ _) v7 j3 \5 l& s3 s

    % L: p. A% \" ~* _" n3 a
    & h2 X" b( I5 ~3 ^9 qScrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
    + ~* u0 ], m5 \7 W$ Y7 g文章目录
    , H, v) k8 A# `0 C3 {+ v/ G0 J1 d9 S; p6 ^2 J2 {
    项目说明: I* A1 k, ?. y8 @; S5 J) V
    Scrapy框架, t$ j4 L7 e! B
    网页分析: V; \( o; r6 b. l
    爬虫代码
    , i1 S5 W* @& w& A; T' d: {3 Hitems- \- X( r/ o; x6 r
    spiders
    5 X# Z" S( {- U2 lpipelines+ M; a$ u# u9 f
    main0 \  a& a' P( v# s
    爬取结果, Q2 Q* H# x4 t: R
    PowerBI分析$ F  y" D, @9 }- b" k
    分析结果
    # i+ S+ T6 d7 x( g& K项目说明
    , Y4 B6 a2 x6 ^: N
    2 O/ q9 ~1 {9 ^; b3 U0 T近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。
    ; T" |8 I5 P1 N9 R  ^# [& d8 N$ W( X) P8 M; {) `" K
    网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
    : ~; k& O% f* V
    + M1 r5 b  }# f3 s豆瓣TOP250图书分析
    " q/ }( s- m9 P, n  x, V0 V0 e3 i2 \: x" W/ u* H+ ]
    该网址的数据会不定期更新,感兴趣的同学可以收藏~~~
    6 P2 y/ p- N. e% \. a- l# c& W. W$ N$ N" a% `" z
    Scrapy框架7 H4 H+ r- W+ m
    ) n. a- v0 z  @  B4 Z# h
    网页分析
    8 I' a8 T' J0 r4 D- L% K9 V: }4 C
    浏览网站,确定要爬取的数据0 n/ H6 g7 |' m+ r$ ^: b& ~
    1.png
    8 f0 C. j& M9 }- J9 r爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png
    * r* \( i+ Q: L0 L* R4 `+ ~2 n, o) F+ L: z. J$ o3 x( c  P4 s+ x
    进入项目路径,打开doubanBook文件夹$ k! q: N9 d. {, i
    4.png ( v! U9 k: D* A2 M1 b
    3,.png / N/ l9 J" p" G, q: N  H
    3.png
    8 y$ x6 v8 t7 k* `8 i# D' V  v8 l1 { 5.png
    ! r+ H, z9 X2 v! ?+ \
    . l0 Q( u; e+ p( b$ S
    * f8 a' ^8 n7 p  X6 aspiders 6.png
    8 T9 ~4 A9 k: ~, F6 Tmain 7.png
    $ `7 `, l# _; e; ]9 U( P; L& L% d2 L/ T2 t% {$ m. Y$ g" g
    爬取结果
    9 U, s, Z2 o0 W0 | 8.png & c$ K6 ]8 v: }8 _* ~$ V: X  W
    PowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈- d# Y5 _) b5 ?( P2 n% \
    5 ?) ~, L$ ~5 {' k% l) q) Y0 V' R
    ————————————————
    . C) w, T8 x& h版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。& w5 d/ C/ B% t1 S% u- U  M
    原文链接:https://blog.csdn.net/soleilxy/article/details/105931061
    5 x0 a5 R$ D( G4 _6 B3 d6 P+ h& j$ `$ s

    . k9 m+ S, N! b$ }
    6 A$ T2 G' B6 ]3 ?% o! e: c9 I

    14.png (138.88 KB, 下载次数: 732)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-11 22:46 , Processed in 0.288783 second(s), 58 queries .

    回顶部