5 s( D6 G: H8 ~+ a& z; R9 k
% W9 i' E8 ?5 Q+ o( I: F8 s7 e( I; A! C& ~9 l9 L! u
Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
9 R, i. Q7 V3 T K文章目录8 ?" |: U, V- C0 {
) x; I+ t n7 X+ n' ^
项目说明) W! d& a! _, Z, H) O2 }0 g9 M& k
Scrapy框架2 }" W; I! ~9 U- u$ m1 J
网页分析6 G/ v: t+ t, j c# E% k
爬虫代码
% X7 N' C+ ]) O! I; i8 J7 x# e. \items7 [/ Z* y; e- b; `1 L, A
spiders
% e8 [9 Q% Q: Y% I( X( hpipelines- G4 j. Y6 d3 r" ^
main
! O: p4 V4 _ Z+ I爬取结果
6 ]- N' d; H; e1 ]PowerBI分析
1 v3 }$ O2 G) }4 o- @. ~分析结果
( m+ {. V2 K6 z项目说明" h5 P1 ]& m w5 C) }9 W$ p5 t
3 [/ r3 r! d) A: e% W0 P6 v, W$ X近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。
2 g, p5 m7 V, W+ A* g( B7 [2 v( u$ _, S. [% {
网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
* A( h) `* g3 t% {1 Z3 ]/ T X8 U
豆瓣TOP250图书分析4 Q: `9 A8 O G& q
) p" J2 ^3 q1 f
该网址的数据会不定期更新,感兴趣的同学可以收藏~~~. X1 L( K! [+ X) \) i' B5 b' I' x
7 e& f O% h M# F G4 N* tScrapy框架+ c6 U$ z3 U+ m: Q- A" w
: a" D2 V. b' B
网页分析9 x8 p( B- Y4 v) _1 t2 z6 b
6 X M8 E) G# O! V! r. Q
浏览网站,确定要爬取的数据5 u$ [. `4 [* Y1 N
& Q( [$ N/ Q* |& k2 y9 Z爬虫代码打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook
) B2 O# Z8 z! j9 y- r! R
* R' F2 L/ ?& X5 Q* p8 F
进入项目路径,打开doubanBook文件夹
7 V g$ ~; @: J/ F9 G9 k
0 N- k4 R. `: i9 {# y1 |4 y
) Y( P2 }: [$ D% n* f
4 Y# U& m, M: ?0 b! W- @
: H8 R$ t" b) g1 _" d
1 Z4 _7 ] k2 s
* [+ P% W2 m; _+ H3 ~; Aspiders
' E' X4 g0 Z& P% y- }2 y& c2 z. X
main
0 d3 p& t( p9 d% R, V
: a3 h+ H0 z$ I; T5 e+ B0 Q爬取结果- C6 }2 r- o1 h: y2 a' \
& e9 M4 G L: oPowerBI分析- 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
- 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈4 Q' M. ~3 U) G+ w
8 _6 h3 B7 J9 T2 g
————————————————
4 A; J, Z$ z: n版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
4 T: T& s3 }$ I* L/ i原文链接:https://blog.csdn.net/soleilxy/article/details/105931061+ X& ], f0 W6 o) L5 E2 {' v5 c
+ z" c7 `0 Y3 S7 P. r
+ {! s# z5 I0 S' ]
. J' H8 i2 O$ A; r
|