% Q& {0 @/ m8 U- A8 d, h
- T8 _$ K. n* H, ]& l
2 n/ H& g4 R/ cScrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
& h5 y5 w' E2 Z文章目录
* \ i ?( _/ S. n d# s
3 y d8 u2 |" p, k项目说明( {9 ?6 h: Y5 k8 U+ X' g
Scrapy框架: R) L, Y( {! c8 Q0 z/ w0 u
网页分析
% J6 }! p% j; v4 a爬虫代码" M# l- q0 J, K1 O" e
items
5 f% h6 p+ D# ?' `spiders* G% W/ j7 H9 P$ T9 ]8 P
pipelines
4 x0 v0 J1 Y- L3 l7 L) t# Fmain# O0 E: H3 B8 I1 f
爬取结果( `! y& \9 z% ]6 Z) w! t
PowerBI分析
" B! Y/ k6 n7 e) j% O9 t分析结果+ m( Q6 A/ I+ ]4 {, E* g0 c1 R* v
项目说明- z+ I0 b) `$ E. U4 r: B
: _7 Z( x) c5 ^: l- ^1 A4 w4 L
近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。
+ V) i& a0 j; T: r1 j4 M/ [0 j5 ~; i7 d$ l
网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。0 ~. [8 o) `: h
5 e4 C% ~, Q2 G" B5 x, x
豆瓣TOP250图书分析
$ `' I$ L& g0 Q c' s' E& `* T% T0 ?$ X' d; t; ^, H: ]
该网址的数据会不定期更新,感兴趣的同学可以收藏~~~# Z U. [% |8 m7 m
5 t S2 ^. |/ xScrapy框架
! G; w v2 L1 T8 E' P' E
3 w" p& s9 n' x7 \% V网页分析
( f& |/ E# x# S8 A8 Q8 ^/ h+ C% c Q" h7 K! s0 I
浏览网站,确定要爬取的数据
( m( j) c' h( i3 g7 i. O
: w3 J' S/ o- M W7 {/ v2 b爬虫代码打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook
6 A) Y% r' }1 i6 m6 \% ]/ G# f, E1 p J6 ], F: t
进入项目路径,打开doubanBook文件夹4 [, }8 D1 Q8 t% Z
8 }2 U1 F6 F1 n ]& s4 p
* H8 u& P6 E9 O1 b+ ?+ i
" A! q/ z: b. [1 `0 N
: o, t s/ r4 a# b
" T G" f# ?! a7 L4 H) R0 W2 O/ \6 M9 l& Q0 [
spiders
3 W) i; Y! z. x: e# X3 @% }
main
m& b+ C& \- B& @/ h# N9 N( [' L8 Q" T( l* m
爬取结果: }) ]# ^7 [+ }5 a
2 o6 j6 s- W$ {" LPowerBI分析- 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
- 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈; M/ x& T- L3 y7 u% `
) f! ~9 q6 J; `# r) @+ P
————————————————/ Z3 F; l- \7 V" |/ R) z
版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
' T/ k& g# [$ r. M原文链接:https://blog.csdn.net/soleilxy/article/details/105931061
2 ?- |! B. n$ D7 ]8 j0 I, D8 p0 n( p8 b
! @/ Y9 f# s2 Q0 B" Y+ h
: ~( b( Y3 I/ w: V! Q ~
|