QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2741|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    8 `- E. y# A2 n" o
    + e+ T) {# }6 C; Z! s/ W- f' V" W
      A9 m6 d+ O; |  F' Q; QScrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
    ; i$ v( R! a/ ]0 g% v! {9 r# |文章目录
    8 j! w6 L% \. R1 n; \: V$ A* V1 H
    % i- G- s3 k( L* w6 ]" w* r% W项目说明: {: l# x- W" c9 C8 _
    Scrapy框架1 `" i7 V( j- h0 G+ i* ^0 d
    网页分析# }3 o  V9 u' m& K1 n& K
    爬虫代码
    2 e( D+ s: N( L; ^0 z' t( N3 Xitems' U6 G) U) O' a/ T5 [. Y5 J
    spiders; S- }* Z* p" [3 Z4 g# a
    pipelines$ |  m* k; ]# N2 k3 ?0 p) D$ y
    main/ k1 O1 b7 F, x% {% [# n
    爬取结果! ]& {3 K9 ^" H  v. p" \
    PowerBI分析; H# y! c! S/ a$ f
    分析结果
    " N/ O! J2 h7 r, N, \& ]项目说明& A$ f( l. g* i( [& n. ?+ _
    # J3 ~: d$ f6 f& m9 `% c
    近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。4 \) N7 _2 P4 u! i, W. I

      B1 S! c4 y/ ~4 q3 z* H网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
    ( f& J: E0 v1 G2 u
    ! v" o' e1 i. X6 c( @/ |6 `+ J豆瓣TOP250图书分析
    $ L1 b" L& Z% r& w  ~. s) ?& G( G6 K1 Q9 T! [1 `
    该网址的数据会不定期更新,感兴趣的同学可以收藏~~~
    6 e; u) s" ?, |, b+ }0 _) Z: O+ L2 B6 b' ]0 H$ N
    Scrapy框架
    6 q. A7 K0 V. c" ?4 _# |
    1 [0 e/ e8 n- W网页分析6 v( n2 p2 N2 B" c7 Z/ W9 R/ L
    3 u* V3 K+ r" Z
    浏览网站,确定要爬取的数据5 e; m" {+ o' s' _6 w
    1.png / M: P- L: X7 C" Q' |# k% n
    爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png
    5 R& b( B" `  u1 c$ F" ]: b+ V$ L7 `" p! l* ^% S8 ]
    进入项目路径,打开doubanBook文件夹
      }: Y% i; R( f* ~ 4.png 0 r( R& a* x# d# F
    3,.png
    ; c: s/ m1 Q& H  V! G7 [; X3 U5 E 3.png
    , c. p9 t4 V" L3 D  ]+ m 5.png ) T) w- b" k  s$ f4 U

    ; V% ~3 G4 k3 l% {) x
    : H# H2 M9 @$ i2 Hspiders 6.png 6 e& C4 u5 ~9 `' h+ z3 q1 D
    main 7.png
    ' {& C  f4 @( x# S* T! q7 x8 H$ a. a) u, M4 B! f
    爬取结果9 M4 @% P" s3 D, @. H
    8.png ; ?" N2 E7 n8 X  m0 I$ i& Z
    PowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈
      8 C6 F8 Z3 M- _/ \9 Z8 h7 j' z

    . q; }; @8 v; U1 O( M0 c  j————————————————: c$ n2 R5 C8 j, A3 {0 q
    版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    % P5 q; _/ y( g- G原文链接:https://blog.csdn.net/soleilxy/article/details/105931061' y. c6 g! Z8 {* D; q
    - @0 J- u; v# T& A; m% I. `% C1 }/ D

    5 x: y  P0 K9 p5 b3 e  o( W; a8 ?  G/ S/ M4 A$ \7 s5 R

    14.png (138.88 KB, 下载次数: 732)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-16 05:22 , Processed in 0.457621 second(s), 59 queries .

    回顶部