QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2495|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    / n: s2 [8 g+ _
    # J  K: q8 z. h8 u$ e
    1 I+ y( V/ d4 s& D  [
    Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析' v; y! v- W; q6 N3 o! h+ q
    文章目录
    * o, w  s$ n8 Y/ }' I( d% i: ?( {6 r0 q  t2 c7 X7 D
    项目说明3 \" @$ J$ A- I; ~; f
    Scrapy框架
    1 S" h, ?' X4 Q  X- e网页分析7 a/ q( J% _( q, M1 i
    爬虫代码( L$ ~' [7 D& b2 @
    items
    : u) S+ K/ R" T' [- Uspiders
    3 V* }3 I) }9 ppipelines# u. M$ ]  [! e  \4 d9 s
    main$ G# o8 A! _7 l& F  L
    爬取结果
    6 U* v! ^& v, D& }8 p7 pPowerBI分析% e" T  w- ^  Q: Y2 H
    分析结果
    7 K% t& C/ M/ M! g# _2 }项目说明
    / K  i9 n4 _3 A# Y7 y2 o
    # _- `. k. |0 n. ~5 I近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。1 ]3 Y4 _& L, @1 u7 S2 [
    , ~3 }; x# C3 i" K5 E! z8 G# H
    网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
      u: S8 d& k8 \0 k/ e" F3 W& Z4 A0 K( B7 A. x/ M( u) `
    豆瓣TOP250图书分析! u, C2 p/ g" T3 C5 z; Z
    # ~9 S. [# h( c/ g/ ~, }% ?. c
    该网址的数据会不定期更新,感兴趣的同学可以收藏~~~
    ' o0 D3 M+ ?- J; D4 b+ x# b9 Q! j2 R; B' E3 [% \0 h. w
    Scrapy框架
    6 T0 P/ ]& O& A, ^$ k' v
    3 q* J% s9 @, m* X: a) ^网页分析/ q% f1 W; Z3 `

    * e( x9 O# z8 z2 @" V浏览网站,确定要爬取的数据- E  E- h  O4 E! g/ Y
    1.png 5 y: i4 |1 w: c
    爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png
    % D+ x+ v  d/ l" j1 z: `  [+ w
    * c' _, e+ g, t0 P4 Y进入项目路径,打开doubanBook文件夹$ B* x. {$ b5 \! h
    4.png 4 n2 b* {4 P% x9 m% S
    3,.png
    3 v' T# k# ]. G$ V# p; [( ? 3.png
    1 `6 `- N0 e2 k3 v( g) H 5.png
    8 f# j8 B4 k, h
    0 Y3 B# |/ K# i3 m3 k2 L# C
    ! P$ S+ h( o$ a  M% G' E8 A# lspiders 6.png
    9 `) u  [( |6 C# {main 7.png ! O/ Q4 X0 _0 ~5 Z
    7 q8 H+ ^, z* D# w
    爬取结果
    + W+ z0 Q% b, a- B& x 8.png 0 v7 @$ y+ S: W5 k
    PowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈
      * K+ {/ n& A6 D. B4 f: Z* [+ x

    2 u8 q. n5 E6 x: e4 g: S9 ^, i( E% ~/ o————————————————+ l! s+ E3 @6 E! \; l0 [
    版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    1 u0 N$ ~+ }! x! w2 N" Z% L5 p3 {- L) y原文链接:https://blog.csdn.net/soleilxy/article/details/105931061' t' V! F/ }" r0 R

    ; N- _0 W9 o; z+ w
    ) g; C2 c1 `7 w/ K7 y
    / ^6 N& G9 N1 G+ I

    14.png (138.88 KB, 下载次数: 727)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-9-9 02:42 , Processed in 0.708556 second(s), 58 queries .

    回顶部