QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2777|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

      A+ b9 m2 [( [0 h' D: w+ N& V0 l/ i3 N1 d4 s: e+ n# K

    ( L' ~! C  z" ~# jScrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
    - b; q  i' v* y; A文章目录3 c' U4 C; P3 W5 o( A
    ' Y0 P8 j  Y" f; E7 [
    项目说明
    * d8 `- ?$ v  tScrapy框架1 H% w( X5 R9 G% i/ \$ K
    网页分析6 F2 K2 T9 L- {9 ?
    爬虫代码) t  F: i8 D' c4 z/ P1 v7 L5 T5 i: E. P
    items& s6 I+ P$ h! B; m3 G5 Z
    spiders
    % e( K. G' i2 Lpipelines$ u3 X" }+ A9 c/ }0 Y
    main: K+ g- n* F2 D( f6 q9 r
    爬取结果+ Q- B2 P3 O) C5 c. L" s9 M
    PowerBI分析$ X& m: _1 ~) |! J  I
    分析结果
    9 c9 m& u3 W; q6 l" d2 c项目说明. u5 _& X. T# s+ b. ]  A

    ; E3 E( U- k0 Q近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。
    - o7 |' {4 R; g2 R. ?* q1 U8 d4 D4 \8 h# I3 M' P! d
    网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。' k! ]7 X% ]& ?6 S0 }

    : m3 p4 U2 x/ j  _0 O豆瓣TOP250图书分析
    : l$ c% f" S; l, d; i: ?0 M
    * H9 Z. v7 J4 ?4 A% T) J该网址的数据会不定期更新,感兴趣的同学可以收藏~~~
    9 F3 M3 ~+ h! I$ H  d) A( @. e) R4 H: l
    Scrapy框架
    " V; ^0 A  m8 N/ a& \2 L3 Q7 Q; i
    2 _3 W  N3 w$ V0 v网页分析
    8 d/ @& Z$ s# J: q: O. s+ d: o2 E# D9 b  p6 l
    浏览网站,确定要爬取的数据
    4 h" h+ x% N( p: x  s! h# R- E# N 1.png 1 Q9 \' F" T$ V8 z" m
    爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png * ?. e9 |- J. \4 H6 C- f1 B

    ; C' L0 F% V6 z进入项目路径,打开doubanBook文件夹
    - i8 n$ z' ^. E" D% Q0 b 4.png
    ; I  o$ q" d" }! T9 G! s0 R 3,.png
    $ [" i0 F9 U( j2 o( } 3.png ) z6 a! n' M$ G! r9 R
    5.png   S7 |. x3 o8 K
      E6 C, I0 O, c0 l

    3 R  [# |0 g7 I: Lspiders 6.png * A! h1 \& h$ v2 v! |5 g9 x
    main 7.png
    ' @' Z1 j# X$ g  j; _8 C  I5 ]3 z  u) _# P4 V
    爬取结果; C) `, O$ n6 q: c% M" k$ H, z
    8.png 4 y% K' {& l! |3 A; V' V
    PowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈# [$ Z7 i  u% Q7 l5 V. G- u- v
    : w. M4 ^) G" j  x) ^
    ————————————————! X& {7 s% |: j- A
    版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。0 r  L: `; J6 j  U5 F1 ^8 D
    原文链接:https://blog.csdn.net/soleilxy/article/details/105931061
    & k% P8 ~  \+ ~8 f0 U( G4 B5 W. @8 z5 I3 m

    % w# T3 N$ t7 W4 t" `
    # D) C! ]/ t5 P4 u5 L7 G* s

    14.png (138.88 KB, 下载次数: 750)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-14 12:16 , Processed in 0.447524 second(s), 59 queries .

    回顶部