QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2743|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    3 r% n4 I, C4 M4 M; J

    & b  d  L& i+ D8 }3 W1 `7 w2 w* ?  H- \' q
    Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
    + e9 H$ F6 V- y( D& D" {文章目录3 C: O) Q( I) t; u( e
    # s& J  u1 k3 A# ]9 K, M! H8 u1 O0 S
    项目说明# u7 \4 R5 u; W9 g
    Scrapy框架5 [% l) C& B$ _
    网页分析
    7 x8 A" s0 U5 e7 f' e  b; x/ c爬虫代码
    - x- D& _# r9 M2 Yitems
    2 ^: [. x- \; m+ Y) p. H: _spiders0 j4 e* _- z* B. H7 u6 [* P+ L
    pipelines
    / Q- W) u9 ^2 Z( |: \7 Gmain" A8 B6 Q6 y! l  D, A
    爬取结果. b' v( g; B7 O1 u7 G+ a
    PowerBI分析: |" n# F$ h, v6 D4 i* o
    分析结果
    , U% w# |7 ?, t项目说明
    % R) |! f7 S8 S' i# ~
    3 @1 p0 I) F2 ]1 A9 ~/ w* \近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。
    7 i1 B5 @, F( |6 f0 a4 |) j, [
    - O8 ]" @1 v4 Z% i: a* [9 j网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
    ' h9 u6 z3 I7 p3 L4 F) K
    - M  M! k0 s* C' F: e* n豆瓣TOP250图书分析
    " l/ I4 I% \% K. T7 ]5 ~8 _2 e% L" ^. O+ C; A
    该网址的数据会不定期更新,感兴趣的同学可以收藏~~~0 W# z+ m* @0 p" L

    " Q0 P5 v" Q& r* @& p; bScrapy框架
      f  h2 e7 Y1 O( c- u: {( w. S0 t  K* |4 D( g
    网页分析8 U1 W+ v3 ^' S% d# z# B4 E
    , ~$ A: P- f* L( r; m& N" p* N( l9 S
    浏览网站,确定要爬取的数据6 @! t  ^3 ~1 I7 z( Z7 u9 N2 r, e
    1.png 1 w* w6 I9 i. n8 a8 j7 Z6 Q
    爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png
    8 K8 N+ C: Z0 h5 K) L2 R' P& l$ D0 g3 L* f; _, V( f
    进入项目路径,打开doubanBook文件夹% b# \& v0 M$ y+ c  S- y# Y$ d/ ?
    4.png 5 c; D  m6 P) ~; `  O' `6 X
    3,.png % {. i$ D- w7 i' I( p0 j
    3.png
    - l# d6 s. o4 n& a9 {2 a9 }7 e 5.png
    , a: U  U! p# L# J& ^# @% \
    1 @0 l- S  O( Y4 Z' i
    , @2 |4 z0 `4 S/ V2 n. E* N; ]spiders 6.png
    $ k$ Y9 f  I; L) m1 i* j4 N/ d! F( tmain 7.png $ K4 C& P0 c- K# R0 Q8 i9 {2 ?
    ' M& S5 y' T5 i! K
    爬取结果
    8 B1 o3 s6 j. f0 c  }* ^ 8.png   G) p) L% f$ J
    PowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈/ ]  c) C; Y& Q

    3 @* v8 S% O$ I7 d  k" ]$ }* e————————————————
    / {% }- l: X) o1 G版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    % P' k; c7 Z* m$ B3 w原文链接:https://blog.csdn.net/soleilxy/article/details/105931061* ^  n! c2 o1 @; {) O$ I, B

    8 j( `6 d6 g/ b! N( F. ^( J) c
    ! @9 v# u5 k+ a2 p9 R% S8 \$ h# [( N7 N' r+ P0 {" ~4 e3 M' K

    14.png (138.88 KB, 下载次数: 732)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-17 02:01 , Processed in 0.458565 second(s), 58 queries .

    回顶部