QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2767|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    9 Y# z3 v% V' }
    % d5 g9 O4 H, a7 C
    ; T" s/ \4 }  M% E! Y9 k6 V  yScrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
    - ]) U4 ^1 l& }; Q: [3 l+ k文章目录% L% ]) ?4 S" m' C- B

    ; k9 }8 e7 M, r/ w7 n项目说明' x' ?# B/ d8 @7 ]
    Scrapy框架
    8 P' B, N  V* T' C, s" l7 T网页分析$ x. ]) N- U' V7 ?# O
    爬虫代码4 J5 v% c. a; h, L5 B
    items
    1 q4 Y) R9 u1 q* v7 Z& y4 pspiders$ X& \& `) W) w
    pipelines
    4 F4 h6 d  H8 `6 Dmain
    & X2 ?7 r5 S7 N# A爬取结果
    / O3 c0 v& v  _, {4 L; a" HPowerBI分析
    $ ]  h. J1 G% l3 N, E( c分析结果
      H' V  i0 H7 [1 s1 w8 O项目说明
    ) p0 N$ g& t, l5 b
    ; I6 q! |! L! {; o2 O1 B1 X/ u近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。( E# {9 e5 L5 `7 b1 O

    1 ~, w  m  V$ R/ z. w" c1 a5 R8 i网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
    ; F. O% `' O( e5 c2 t& \& X) u: r$ z: |+ r7 I+ e
    豆瓣TOP250图书分析
    0 T- N6 x4 h; L$ N  V
    0 q& ^. r* U5 G4 E% m该网址的数据会不定期更新,感兴趣的同学可以收藏~~~5 ~! J, X3 n7 _! w
    , z4 D) ^! g" t/ H# q2 X6 L
    Scrapy框架
    4 `' l! k! C& @/ X; O
    % F" \: R$ V. Q2 G网页分析( c$ Y! A9 i$ S; |
    . Y2 {$ d9 _6 Q9 L7 b# j
    浏览网站,确定要爬取的数据3 F# z8 {8 U$ q% D# M: D; F1 A4 _
    1.png
      C1 i7 P, {( b. ^爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png 7 q* _8 m: ^5 l4 P- ~! t" a& M
    2 J; R, T+ y' L
    进入项目路径,打开doubanBook文件夹
    9 N# A! V' j( q/ \' ~8 j 4.png
    9 E1 \0 s+ u* V( v  o; c' [ 3,.png
    6 T, U, }4 I3 H2 C" M5 P 3.png 7 X; M2 T, |, V+ h
    5.png # d( h& x! H# _( X9 w
    ! p3 \. z- [4 G+ b% ~$ e* y

    : ?) C: n: o, Z% \( D5 yspiders 6.png ( b9 P( \6 u+ k* z
    main 7.png
    8 y4 W9 g9 e- l+ d- U+ f
    : L4 C; _& L6 ]5 c/ S爬取结果
    0 x( q' m; Z3 N1 J 8.png % w/ _, M6 F! e9 [1 _- i
    PowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈
      + M! U+ y* u7 s2 w
      w! m1 O( [: ^6 \) p% F& o
    ————————————————' X1 Z7 o/ I6 g9 m0 S, @
    版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。6 ~# H2 h  A$ y; L1 H
    原文链接:https://blog.csdn.net/soleilxy/article/details/1059310614 G. n2 }1 W9 j; y! m
    & [4 M, y# S- \

    6 w) i7 \: {0 F, B" s
    $ I- ~! M: y" x: M" D, s

    14.png (138.88 KB, 下载次数: 746)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-5-27 09:47 , Processed in 0.358443 second(s), 59 queries .

    回顶部