QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2739|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    ( j- Z' n4 G& Z' K# ?2 G
    & }0 b1 N( G9 n; }0 u
    ' {* L/ D3 w2 S, \! FScrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析0 y* S$ t$ m, z7 _  |4 A+ M1 d
    文章目录# p6 f5 y! u+ E9 x0 M. |1 l, s4 x

    , l' c$ l: Z, m  U项目说明
    ) O  X, _1 ^8 }! ]* x/ O8 IScrapy框架
    + v$ _- k; @+ I% g网页分析, M- H9 n; Z0 |* Z- }$ I- R
    爬虫代码0 c4 X: @& w/ o7 e) b, F/ A8 ^
    items" d) v3 A6 O0 ^, ]  ]) W$ `" k
    spiders
    ( s' h, \) R6 ^! Epipelines
    3 r+ p1 d4 ?7 o; k# ?$ k6 L* @: xmain
    , Z! C. {4 J: `$ t* m爬取结果& Q5 O$ Q; m, w( [5 ?. i1 [
    PowerBI分析
    & ~6 r) N, `. \, b1 k分析结果
    ' a7 i$ b( H: ?4 v# W项目说明+ @4 O% Z: u- r9 ~
    ; _6 x8 G5 t' |$ R
    近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。, c! C5 b2 F5 H. M" t5 n& C5 Y

    . K8 w0 S; w9 t: q% g4 Q' v+ }' L& F网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。& q; K$ N2 ]: j! y
    1 H; u1 s* |4 H- b* c8 u% T! ^# M- |
    豆瓣TOP250图书分析* ]/ v) w' g6 a4 G8 O

    / s# J, z9 j$ Z2 H该网址的数据会不定期更新,感兴趣的同学可以收藏~~~0 [3 v; B5 \! r% N" p" p3 S

    , X$ f0 y  C& M4 u5 Y: g6 YScrapy框架+ {# \; D+ D7 f, P2 N& B, |  H

    5 y) y' ^: g, @网页分析
    * r* a9 c9 I# {( [6 R% q! r8 F) t" `, y7 l
    浏览网站,确定要爬取的数据
    / T3 M3 s' [' |; N; L4 N 1.png
    1 m) Z+ ?  h1 f; `6 W6 l  g* @( D" ?爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png 5 t+ A3 c" K) @+ n
    ( j  q9 l2 m5 q8 o5 z) \) B
    进入项目路径,打开doubanBook文件夹
    2 {) G3 P# O% g 4.png : w! X5 M  A. a" L. w* |
    3,.png
    ! [  J* N! m" U+ C$ r9 o* _; W1 v 3.png
    % h# |, L! f! a# s1 } 5.png   m* a1 Z/ |: Y- A( ]& ]3 b
    * u( {" ~1 C, ~" w9 _% r# [
    0 c. |) Y4 q7 T# t
    spiders 6.png
    , U* _% K4 q! Q( U' w4 H% Jmain 7.png
      P  A" s3 }. Q! r* b5 x0 {, |
    0 ^5 Y5 L) W: K2 X4 Q: b+ O爬取结果1 V2 h# l& p2 O- x/ x' R* N
    8.png
    # |" I; ~1 H# CPowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈
      : p2 [. r. W6 L: X* e
    7 x* H. i$ t1 H
    ————————————————  c- {: k1 Z) X: C: o1 e
    版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    3 A9 I! h. `' O, {! C3 f$ n原文链接:https://blog.csdn.net/soleilxy/article/details/105931061
    2 a) c% F0 q7 w% y/ S, i4 L: Q$ j. E! R/ l4 P1 }

    7 O8 Y  N. z. U. N9 ?3 N) \: i- _" d; j! n  {( T; d

    14.png (138.88 KB, 下载次数: 732)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-14 11:46 , Processed in 0.479167 second(s), 59 queries .

    回顶部