QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2768|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    ! S1 e" u+ ~" `& `- ?
    2 [& `4 Q5 ^7 R9 s+ V' M
    ; v" a; C$ _9 H' N6 _Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析! |  l) |; h" s2 z: p
    文章目录
    7 l  I5 V# A3 h$ F1 U) S/ ^. X$ A& ]" g7 h; Z# \
    项目说明' Y/ I# N5 E4 r% A0 [
    Scrapy框架: l% |, [& {# C4 E
    网页分析  w, e% o" h4 V4 q$ e: T: y
    爬虫代码# G5 |- L  q5 X6 O
    items% a+ J1 a- q1 I  `) M
    spiders' d7 @' @# D  u0 [1 m0 S- T& C
    pipelines/ Z' W8 B7 d, j2 P& B
    main$ [( W, ~) H0 h8 G, \
    爬取结果
    3 f& \+ r( e, j7 RPowerBI分析
    5 H% S6 J9 a! F2 a0 }& }1 S分析结果
    ( }5 l% G8 o( N项目说明
    9 O. X  m; g- g  |7 q4 `' @7 @2 D' C  d: _" x
    近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。
    - F. r, l6 R3 T
    , n- O& l$ f2 Q8 t网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
    - l2 A: F# h, P9 s  t! n: `
    9 \4 H. t- c5 s) w. p* k% c% i豆瓣TOP250图书分析$ c0 l/ J$ W4 |5 V. p$ O2 y0 D

    ! l5 ]) M1 w% k$ D该网址的数据会不定期更新,感兴趣的同学可以收藏~~~0 G# ~7 @0 \& M
    5 a. X/ S  G6 f  S% V9 J5 m3 S
    Scrapy框架
    ! x1 E  Q- o& y- R5 F3 p* Z- C( e& K$ a% B9 J
    网页分析" R3 Z7 c: X* M1 q' {2 @5 I5 S1 {

    - E8 I. o3 B% i1 T: @! U; a浏览网站,确定要爬取的数据
    6 @) j5 F6 t% v* i. U. m5 ` 1.png
    . z, l9 H7 |! Y9 v3 j# x6 P) h! ]2 w爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png . ?3 Y) A) U0 h' y, u2 V8 S

    3 ~1 _* N9 `0 B# |# c进入项目路径,打开doubanBook文件夹
    ) |8 C& |8 }7 w  A 4.png
    4 K8 Y; R" N; i4 c9 T& _; C 3,.png ) I  m% S+ T& _! h& k# }9 q
    3.png ; A- q- v# |4 N; D* G8 O
    5.png 9 r4 V; U7 [1 |* z8 ~: d

    3 V' [2 V/ R0 Y& e7 t  w: U  b8 _- w5 |4 |  E7 b7 G: q
    spiders 6.png ( e' Z' D9 f" U, H1 H
    main 7.png
    3 N7 m8 W+ G+ f/ b
      ]" g+ m8 b8 O, b0 u: v" S爬取结果6 Q  J! [/ j. n; w0 \6 e8 p
    8.png : F) p* w# P0 w$ {1 R5 F' P* ~
    PowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈% d  U( h8 O8 ]0 I; Z' m5 B5 S- x0 z2 E

    # s& i+ j$ R, S7 q0 {————————————————
    & d1 t3 O* M2 R6 y9 z9 {2 m版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。$ `; h: m' j9 u! Z# u) p2 m8 q: ^
    原文链接:https://blog.csdn.net/soleilxy/article/details/105931061' f4 C2 T/ I* X: w; }0 q7 E9 O

    + k# C9 T. I1 p( H
    ; n' M( d# Z7 a" @5 P
    * P! v7 V5 G; z

    14.png (138.88 KB, 下载次数: 747)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-5-27 12:13 , Processed in 0.345217 second(s), 59 queries .

    回顶部