QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2786|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    % l1 w& Q1 a/ e" [0 z8 h

    9 F3 X* E1 Y! W5 t& s
    ! ?. a" F5 U' B3 t  |' KScrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
    " j9 w* F& I# K' M/ n$ r% I+ [文章目录
    7 D" Y0 p0 q& u7 g3 G5 M! J+ |
    & [" F8 M0 q) v项目说明4 |( o1 T' }( W/ o' i
    Scrapy框架
    ( c) p: k. G* r0 ~, c+ s& S网页分析
    # w! J! L+ [5 H  A% U) N: G爬虫代码
    " d: A* L0 h+ _8 G  k1 Eitems
    4 O# q( l; ]0 ]& f! x: \7 q5 Aspiders2 P2 v- U  ?  _8 k6 a) L& ~% B1 [
    pipelines
    . W* a- U( P1 {2 N# x; pmain3 R8 O% C! Z" u, z" {
    爬取结果  K- G9 X3 Y  Z
    PowerBI分析
    ' Z6 q) B3 b+ f! R/ Y( T9 \  f" u分析结果
    3 V! J' ^* ^9 W; C% H/ I9 e/ J项目说明
    ' ]3 [* C' F, _; c5 y4 K2 N9 X% y' d
    . i' j  e  K' G" V4 Q- P0 K近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。
    # P9 J! O: U: T9 B7 O- R4 Z  E7 m# m
    ( v8 h3 r: M* `! V8 D网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
    7 J( Y& ]0 v4 G
    $ _9 m; L4 o: D( E$ a豆瓣TOP250图书分析
    % l5 f5 P) ]5 f3 X# L0 b5 j, p& i. S" J- s4 ~) B: W$ p
    该网址的数据会不定期更新,感兴趣的同学可以收藏~~~- C8 m8 w. K' d9 X: \1 q

    : `: C& U/ {% N& lScrapy框架8 Q- q9 S2 q/ {! o: `; ?
    - u3 F0 O, ~+ V# `' Q0 `
    网页分析$ N: w7 C% g' h: N

    ) t  \. [+ r6 |浏览网站,确定要爬取的数据  P) _5 I4 p# K5 w! G5 |
    1.png 8 J$ Y5 H2 J6 s' c5 Z& L, {) K
    爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png 5 X' l  n8 \! A) A  ?" S3 ^

    2 l4 I* A( Y: x8 ]进入项目路径,打开doubanBook文件夹( q3 c0 f4 L/ n4 |, N6 b
    4.png / E2 n# A" V4 V1 q7 C# U& u
    3,.png
    $ q- B" |6 }" Z9 R# o8 I$ r3 k 3.png
    + S% {' v) m/ n( d, g2 y, j 5.png ' i. |6 P7 D( @* G% o1 K3 C
    * R5 `9 N; ]+ x2 s1 V/ O2 g7 [. H" }

    5 a0 _/ X0 {7 P+ F, Fspiders 6.png % _! f* |- I5 v8 K3 V7 X
    main 7.png + s% d* J0 s- z% W

    $ ]6 [9 q' _* d2 U7 }) H) n爬取结果+ C5 ~# _; i/ p, [+ ^. C7 ?
    8.png
    % S* R5 _! T& {/ d# T4 dPowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈
      4 H. I% W0 J3 @) h

    7 A$ q- K9 p' R% |* Z+ x. V6 R————————————————6 ^7 U$ U$ U- B2 k; i6 E2 M
    版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。' Q. H0 Q, [5 y& O7 m) R
    原文链接:https://blog.csdn.net/soleilxy/article/details/105931061% i. o, P, u- n" w# G
    / u$ V" ~7 w3 y1 o+ p5 {+ e& v. ?% a

    + e3 s  g: Q' h' r  m! x4 d( t4 P# {( c: t2 M

    14.png (138.88 KB, 下载次数: 750)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-15 23:24 , Processed in 0.501528 second(s), 59 queries .

    回顶部