6 d5 z: k" K' p# u$ ]4 l' l
$ t: O! B/ j; O: p0 m* n! m& M4 Y6 W% P& b2 u$ z4 t
Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
; v& ?5 Z* |7 ~" X. O3 S3 e2 d文章目录
8 D2 P0 \9 w) _% A
( n8 ]- X3 f8 `项目说明
$ i2 J1 h! D% K* AScrapy框架
* Q) a. B3 K; V9 K网页分析
) o/ |/ l5 n2 d爬虫代码5 \* j) I7 Q& G+ V* I" {
items o0 @1 |# j$ W) [: |3 k2 d. K
spiders S* b1 P( [) a9 c9 J9 K, ?
pipelines9 C3 v5 V3 ?+ {' q7 A. N
main
! z6 G, q) n) I2 l a, L x爬取结果0 Y7 W6 U, V6 h- i
PowerBI分析7 R7 a4 g% G8 c$ B( e
分析结果
1 ]* |) X8 ^+ K" K0 w2 I项目说明
* P: v3 L5 m5 c, m: G% R# H2 Y% B" ^- q7 v" {! \
近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。 i, v& s! L' c% x+ H) H- N8 q
3 i$ _. S% F( u/ w+ Y% b" R网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。+ a( ^3 J8 C q$ E' v
: U4 J1 g; U2 i9 z. m: k7 z
豆瓣TOP250图书分析% G/ J: L7 D T. ]
}8 M0 N Q, A G }- p/ ?
该网址的数据会不定期更新,感兴趣的同学可以收藏~~~# p, }3 \7 n- Q8 G c2 Y
/ u- x( A5 b, I3 T' TScrapy框架
" V. S3 ]: u) K w) d/ n6 m+ {7 T9 ~0 k# U8 ~, C
网页分析
4 |" Q9 l9 \+ D# F9 E* f4 E* [; ^6 X+ G1 m) n
浏览网站,确定要爬取的数据
6 v: G [" f4 v! @1 z# m9 k6 }
8 Z& m8 \3 _! x! F0 |: s2 j$ W爬虫代码打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook
. w6 o( f. Z; Z' v; @9 v
% e0 e# j* S9 ^ B进入项目路径,打开doubanBook文件夹' ]$ |& O" Q) B- b
" ~: ?: Y' f, h" q! X7 s
# e. c0 E' n! Y. i
- g0 o& R, X% `/ }/ O
; E1 I( r0 c+ d$ u; S1 k
* y) L$ Y" w" z2 L
& _- T0 X1 P* {* Fspiders
* p# V6 |% S1 p+ t
main
) D$ r3 \$ m. L! b4 J
" P8 e) |0 R: V6 y
爬取结果
" @( w0 q1 ^) C5 C* t1 y
/ H/ i, z5 Q& x( i) q& K9 aPowerBI分析- 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
- 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈
/ U* I1 E4 j4 g8 X 6 v; \1 x/ A9 \
————————————————* H2 ?# @+ ~9 e7 J: o
版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。0 W% J! D5 r+ k6 j- ]
原文链接:https://blog.csdn.net/soleilxy/article/details/105931061
$ K% B# x4 ^/ }) v$ F
7 I \+ M: G, o. L7 J" s8 w- p
: K+ ]$ t4 A, y, }5 ?8 } {, I% s+ f7 ^+ _ G
|