查看: 2777|回复: 1

Scrapy爬取豆瓣图书Top250数据，在PowerBI中可视化分析

字体大小: 正常放大

杨利霞

5273 主题	82 听众	17万积分

TA的每日心情

	开心 2021-8-11 17:59

签到天数: 17 天

[LV.4]偶尔看看III

网络挑战赛参赛者

自我介绍: 本人女，毕业于内蒙古科技大学，担任文职专业，毕业专业英语。

群组: 2018美赛大象算法课程

群组: 2018美赛护航培训课程

群组: 2019年数学中国站长建

群组: 2019年数据分析师课程

群组: 2018年大象老师国赛优

电梯直达

1^#

发表于 2020-5-5 14:51 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

Scrapy爬取豆瓣图书Top250数据，在PowerBI中可视化分析
文章目录

项目说明
Scrapy框架
网页分析
爬虫代码
items
spiders
pipelines
main
爬取结果
PowerBI分析
分析结果
项目说明

近期在学习Python爬虫，看了很多大佬的项目，厉害又有趣！五一在家把《我们的时代》看完了，在豆瓣上评分后，随便逛了逛，简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地，后期通过脚本，隔一段时间就自动爬一下，看下有无新书上榜，对爱看书又数据控的人来说还蛮实用的哈哈。

网上搜了一下，爬豆瓣网的案例还挺多的，这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据，再导入PowerBI分析数据，后续做到自动爬数据，一键更新分析结果。

豆瓣TOP250图书分析

该网址的数据会不定期更新，感兴趣的同学可以收藏~~~

Scrapy框架

网页分析

浏览网站，确定要爬取的数据

爬虫代码

打开Anaconda Prompt，创建scrapy项目scrapy startproject doubanBook

进入项目路径，打开doubanBook文件夹

spiders

main

爬取结果

PowerBI分析

出版信息列包含了很多信息，直接用power query清洗整理
评分人数、评分两列也需稍微处理一下
2020-5-5 14:48 上传
下载附件 (181.19 KB)
2020-5-5 14:49 上传
下载附件 (324.31 KB)
2020-5-5 14:49 上传
下载附件 (296.72 KB)
分析结果
说几点有趣的发现，时间截至2020.5（大家也可以随便点点，说不定就能邂逅一本好书呢~）
- Top250的图书中86.4%是在1996年——2015年中出版，其中上榜数最多的年份是2006，有22本书。
- 2020-5-5 14:51 上传
  下载附件 (138.88 KB)
- 2020-5-5 14:51 上传
  下载附件 (193.36 KB)
- 2020-5-5 14:51 上传
  下载附件 (39.87 KB)
- 5 L8 m) q$ B! i# I+ u0 A3 r% R5 i
$ S, w* p; | _; j* N