- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563290 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174210
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
( M8 G+ _) v7 j3 \5 l& s3 s
% L: p. A% \" ~* _" n3 a
& h2 X" b( I5 ~3 ^9 qScrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
+ ~* u0 ], m5 \7 W$ Y7 g文章目录
, H, v) k8 A# `0 C3 {+ v/ G0 J1 d9 S; p6 ^2 J2 {
项目说明: I* A1 k, ?. y8 @; S5 J) V
Scrapy框架, t$ j4 L7 e! B
网页分析: V; \( o; r6 b. l
爬虫代码
, i1 S5 W* @& w& A; T' d: {3 Hitems- \- X( r/ o; x6 r
spiders
5 X# Z" S( {- U2 lpipelines+ M; a$ u# u9 f
main0 \ a& a' P( v# s
爬取结果, Q2 Q* H# x4 t: R
PowerBI分析$ F y" D, @9 }- b" k
分析结果
# i+ S+ T6 d7 x( g& K项目说明
, Y4 B6 a2 x6 ^: N
2 O/ q9 ~1 {9 ^; b3 U0 T近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。
; T" |8 I5 P1 N9 R ^# [& d8 N$ W( X) P8 M; {) `" K
网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
: ~; k& O% f* V
+ M1 r5 b }# f3 s豆瓣TOP250图书分析
" q/ }( s- m9 P, n x, V0 V0 e3 i2 \: x" W/ u* H+ ]
该网址的数据会不定期更新,感兴趣的同学可以收藏~~~
6 P2 y/ p- N. e% \. a- l# c& W. W$ N$ N" a% `" z
Scrapy框架7 H4 H+ r- W+ m
) n. a- v0 z @ B4 Z# h
网页分析
8 I' a8 T' J0 r4 D- L% K9 V: }4 C
浏览网站,确定要爬取的数据0 n/ H6 g7 |' m+ r$ ^: b& ~
8 f0 C. j& M9 }- J9 r爬虫代码打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook
* r* \( i+ Q: L0 L* R4 `+ ~2 n, o) F+ L: z. J$ o3 x( c P4 s+ x
进入项目路径,打开doubanBook文件夹$ k! q: N9 d. {, i
( v! U9 k: D* A2 M1 b
/ N/ l9 J" p" G, q: N H
8 y$ x6 v8 t7 k* `8 i# D' V v8 l1 {
! r+ H, z9 X2 v! ?+ \
. l0 Q( u; e+ p( b$ S
* f8 a' ^8 n7 p X6 aspiders
8 T9 ~4 A9 k: ~, F6 Tmain
$ `7 `, l# _; e; ]9 U( P; L& L% d2 L/ T2 t% {$ m. Y$ g" g
爬取结果
9 U, s, Z2 o0 W0 |
& c$ K6 ]8 v: }8 _* ~$ V: X W
PowerBI分析- 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
- 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈- d# Y5 _) b5 ?( P2 n% \
5 ?) ~, L$ ~5 {' k% l) q) Y0 V' R
————————————————
. C) w, T8 x& h版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。& w5 d/ C/ B% t1 S% u- U M
原文链接:https://blog.csdn.net/soleilxy/article/details/105931061
5 x0 a5 R$ D( G4 _6 B3 d6 P+ h& j$ `$ s
. k9 m+ S, N! b$ }
6 A$ T2 G' B6 ]3 ?% o! e: c9 I |
zan
|