QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2779|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    / [9 N6 B- X& I2 P, ]* U
    " N$ z$ w' Z( {+ B* |( m- L; G' h
    " ~, ]. I6 O% m( I. cScrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析% ~( p! N4 B1 \
    文章目录
    " G- ]6 j" K: |) v
    2 y: Q4 }7 g- u( g3 S项目说明
    5 e7 m. E& H; o; [Scrapy框架
    & m1 _3 j& E/ q! F网页分析' b; R9 j6 S* Z
    爬虫代码
    8 S& M; q: G# n' |items
      T' e: \$ d( wspiders6 q; t5 }5 x! k: R$ j# I0 O
    pipelines
    . E- a$ n$ K' Omain
    ! @7 K7 e' W$ `# A# j0 T" z( J爬取结果
    5 ^3 |0 ?( i5 |PowerBI分析6 P& [( M# h# r) U" c
    分析结果
    ! l& {2 O: }5 P! ]3 A/ z% \# V, W项目说明, @& x7 g0 }' o! E8 X' V

    & N5 B: v1 L3 Q! U4 H近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。
    ; S4 m+ S* l6 d' X5 \8 T
    5 W) ^! Y; ]& V$ }6 l, `网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。$ l3 \( }0 ?$ ?: [# R" M. T4 X
    3 w  N- t1 Z0 X) H
    豆瓣TOP250图书分析) G) ?; M! D+ |1 ~

    ! i: Y0 N( A# ^( {6 w. h5 {3 m该网址的数据会不定期更新,感兴趣的同学可以收藏~~~) _: G9 E+ K* h/ _5 a. g+ H

    1 M( w2 o; I( L+ nScrapy框架5 I: K1 e& x' N$ Z) a/ o

    1 S3 b6 g& e- A$ Y# Q: i! S2 U网页分析" c' m; c8 o6 ]- k$ C, v  E
    $ @/ d$ }! E; f" e
    浏览网站,确定要爬取的数据
    , Y2 |/ g9 y- W( s- O4 Z+ \. M 1.png
    ' i' C, Y: M5 {0 u爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png 1 F* \# A4 Y+ n4 X- Y  `

    - j1 N0 k7 w9 g; V5 c/ S进入项目路径,打开doubanBook文件夹
    $ \3 \- n+ s3 a) }( A$ z 4.png % h6 a/ q' K- d: d
    3,.png 9 a' Y( U0 c) Z4 g
    3.png
    * U: [8 T. i. A' u5 |! Q7 I7 v$ { 5.png 5 o; w) G/ O) d4 U% {, B

    " Z# ]: w! c2 s+ N& P; R5 C) n3 n- B- L/ c4 X. B$ q8 W
    spiders 6.png
    . Y/ T- G( v" }4 umain 7.png + G0 k/ p; q' F4 c6 a+ y  g
    ; d9 Z  l6 [3 _* L$ z1 q- W+ {. [; y3 L
    爬取结果
    + b$ J# v3 U5 L+ k1 V! V* ~ 8.png
    ; T8 [& J8 b6 |PowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈: ~4 O4 R5 e/ r/ T; a& Z$ M
    ! L/ M$ V/ Y. [: {* _& l
    ————————————————' Z, n1 q$ I' P
    版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。4 Q/ L) R3 |3 y( ^+ t
    原文链接:https://blog.csdn.net/soleilxy/article/details/1059310619 k" N' n/ `+ Z. w/ [/ c

      U0 D, ^+ y, H3 J' v% [+ R  h0 h6 D2 U+ O5 H4 T! f2 K
    + t" t; @5 f8 q9 [

    14.png (138.88 KB, 下载次数: 750)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-14 16:32 , Processed in 0.447071 second(s), 58 queries .

    回顶部