QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2513|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    : A% J9 l4 s$ O- b$ c* Z$ q! Z' |: H# h% L% \

    5 r& ]/ k. W# q! U% GScrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
    5 l0 z% e- @# O( C文章目录! \/ S6 ~, k1 |
    : A) Q$ A2 Y( f  M! |
    项目说明  f- d) O2 e+ o/ W9 l7 \8 ?
    Scrapy框架% R: J. ^) O& V' y# P% x% C: v
    网页分析0 O4 \) S! C& h! T& A- k& x
    爬虫代码
    9 l6 }$ ?* L+ `( z, ?! t3 c( uitems
    # l. {, o3 A6 u4 n7 o3 Ispiders
    " }5 M  l4 L0 K% ~0 J4 Rpipelines) w" S4 K! R. k
    main; Z0 |4 o( w. z4 y1 Y: `/ `
    爬取结果3 J1 `! d4 z% ]: I% g/ U
    PowerBI分析
    5 E) \- p1 y  K9 u分析结果
    # j0 ~+ E# g5 |项目说明! h* z" G* g7 Z8 Y/ J  J5 i2 j
    + A! |4 u- g- Q$ j6 k+ q# q. i
    近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。
    / N! X; H' D5 l3 `/ B0 e4 r& V7 M$ H; C% W1 s5 i
    网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
    " `+ U* m: u- c% h8 Z. R( k0 S6 j  L' k+ n! o2 T
    豆瓣TOP250图书分析- Z/ J& K, a  I. F6 w/ [+ h& ^( Z
    : K) S# z, N: r  ~& F$ u
    该网址的数据会不定期更新,感兴趣的同学可以收藏~~~
    $ \9 Y! h1 w, R7 d1 H
    6 ]0 |# N. [) ?& R3 V! d4 ZScrapy框架
    6 v, s# V. v! e" ~0 s* X& s# s$ f5 C  E1 \/ t
    网页分析6 w; L1 L& M  ^
    . y- q$ V+ V9 I  o; s
    浏览网站,确定要爬取的数据
    ' S; x8 h0 I! o3 c/ E8 p 1.png
    0 z& ^3 X$ _2 Z/ c( k2 v爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png . k5 u4 r2 Y# A! C$ l
    ' K2 w) Q+ Y+ ]- N
    进入项目路径,打开doubanBook文件夹$ j4 w- N2 G9 W
    4.png 8 k5 s- ~) O# F0 F/ r6 J
    3,.png
    & B8 `' p1 u$ t4 F" _& G; S, j8 c 3.png : }/ |/ P: C$ {0 b! Y* e( T1 g
    5.png
    1 ?. q0 ^( P0 O& M: M! }! R, W/ z/ U  A! b% }4 x8 r( Q. I- w
    ! T. a4 k& x, r6 ?1 K7 T: x
    spiders 6.png 0 o( p; A/ o! J( r
    main 7.png
    ' J4 G/ R4 _8 N  R
    9 Q3 ^7 y9 {- [4 p+ M爬取结果
    * [1 t9 g$ V% m# I9 I; u 8.png
      F0 i" S; H, _) X3 i2 n, z, P1 @PowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈
      8 [; P$ |( w& `4 ^# x4 B: o

    - w3 ~# F" I. K0 u/ H————————————————# p$ T& M% r' J7 N. L
    版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。% t) q: I, l3 R" w! V1 a4 |0 q0 B
    原文链接:https://blog.csdn.net/soleilxy/article/details/105931061
    1 \0 }. b0 ~; L$ ?& \( r! g
    5 P5 q; h0 }* V
    ( d2 `, U1 }" ^7 f% p7 H
    2 Y" f8 z( U4 L' B% L! @. h5 f9 ^" T

    14.png (138.88 KB, 下载次数: 729)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-9-18 13:58 , Processed in 0.582725 second(s), 58 queries .

    回顶部