Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
文章目录
项目说明
Scrapy框架
网页分析
爬虫代码
items
spiders
pipelines
main
爬取结果
PowerBI分析
分析结果
项目说明
近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。
网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
豆瓣TOP250图书分析
该网址的数据会不定期更新,感兴趣的同学可以收藏~~~
Scrapy框架
网页分析
浏览网站,确定要爬取的数据
爬虫代码打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook
进入项目路径,打开doubanBook文件夹
spiders
main
爬取结果
PowerBI分析
[*]出版信息列包含了很多信息,直接用power query清洗整理
[*]评分人数、评分两列也需稍微处理一下
[*]
[*]
[*]
[*]
[*]分析结果说几点有趣的发现,时间截至2020.5(大家也可以随便点点,说不定就能邂逅一本好书呢~)
[*]Top250的图书中86.4%是在1996年——2015年中出版,其中上榜数最多的年份是2006,有22本书。
[*]
[*]
[*]
[*]
[*]我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
[*]以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈
————————————————
版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/soleilxy/article/details/105931061
感谢楼主分享..............
页:
[1]