QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2781|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |正序浏览
    |招呼Ta 关注Ta

    5 z. Z0 P* C- \5 G: ]' g
    1 c; A4 ^) D" H0 V, B7 w0 a. ]/ ^5 @3 D- I2 w
    Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
    7 B3 n$ Y" {  T# D% Z) Z- g文章目录
    " n3 Y: Z& z) o  @, n3 c' D# {# X$ c, N
    项目说明2 @, g; H2 F" N
    Scrapy框架2 M1 x3 l/ _3 D# o# l0 ~% }
    网页分析4 U4 c& n0 V; U- A% {) N; n& K" J
    爬虫代码
    , m: y: U7 W1 f% y, |- [% v7 sitems2 C9 z7 L3 f  J
    spiders) r$ i  y# X, Z* D" i$ L; g6 t) l$ }
    pipelines% X+ C; C4 A4 l5 I& X  v  @
    main
    & p: w: X" ~& W爬取结果
    , I  |' p4 D! d1 b, f; l% p; TPowerBI分析( P8 n$ z0 _7 j: Q/ k
    分析结果
    ( y2 S; T# K/ h4 Z/ V项目说明
    9 D. t5 D; R( o# c- w- a3 H* [
    " L% J  R# K1 I0 c近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。
    8 `/ }. X. q% q9 f/ x  Q
    # z1 Q# ?7 Y3 n% N2 x  f网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
    % n' }4 d$ {& h  I8 P! L8 q, B) k# k1 ]
    豆瓣TOP250图书分析+ W0 |' m6 f2 w5 ^" e
    9 g+ Y4 X) M) y8 o; ^5 E+ W+ `
    该网址的数据会不定期更新,感兴趣的同学可以收藏~~~, K& e  f3 ]3 v. z6 o/ q* O

    , P4 |& ^/ f  {Scrapy框架$ K: h& y* Q& K, n1 l' p) _

    , ~" J! \- S: P1 {. d! M. \) q网页分析
    9 i+ _; x0 S7 T
    . R( I" i# m/ O& k$ t浏览网站,确定要爬取的数据  e4 s2 m8 d, N) i, J1 [) z9 Q# `
    1.png * V2 ]5 S  K& D& G/ f6 r& Z, r
    爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png 6 V: P' j, s; J/ M

    0 V- D+ p3 l$ w% o4 `进入项目路径,打开doubanBook文件夹+ d$ U/ w1 |+ I! r& F/ S
    4.png 5 f7 `! n( [! _) |9 C1 z  o
    3,.png
    % @& r2 {( d, ?- `# _/ S8 ] 3.png
    - R5 m7 \) p$ U. R 5.png 5 d* u, I# g) C( ^4 ]% X* d
    3 a3 V" M7 R, v

    + V* ^- W6 w; s5 espiders 6.png 1 Z& m, m! N" ~0 y
    main 7.png ; ^4 r7 O& |/ [
    4 b1 \" V7 @. s% t
    爬取结果1 Q( W( u& f# U  x  ?
    8.png
    4 o7 r$ k2 F! LPowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈
      / A9 @3 N1 G/ _: S' c
    2 k+ v! ]2 @% J. L! l  N0 J; `
    ————————————————, v$ J: ^5 v* A
    版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。+ ], A. q, ]$ D! \
    原文链接:https://blog.csdn.net/soleilxy/article/details/105931061: E+ ?/ b8 @1 \$ _8 M

    2 ^$ G/ }; a( A3 `# s+ `' {/ m
    ) z, r2 S6 u; z+ C* d  G) p
    ' e& q: {7 V0 m, \5 w8 a  }0 M

    14.png (138.88 KB, 下载次数: 750)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-15 01:55 , Processed in 0.331002 second(s), 60 queries .

    回顶部