QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2501|回复: 1
打印 上一主题 下一主题

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-5 14:51 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    8 ?6 E6 Q5 r0 n) N) s
    0 k% b( W+ H3 ?" i# Z- t- m" v4 Q, S
    5 z% b+ U0 x: N, w2 m: U( {( Q
    Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析( Z& Y/ \" c& L6 m
    文章目录& a( m/ s/ N  h8 g, V8 C# P
    , v# c. l8 Q( ?1 _9 j
    项目说明
    % V  o( |) K) p% z+ R$ GScrapy框架
    $ g4 I9 Q5 U! [) o" L网页分析; o; T6 k2 g" h/ A
    爬虫代码6 w: V) ~# i  N! f/ |6 X
    items( A& q! n% m0 n! s7 ?7 ]( e
    spiders! [. Y0 O+ K9 G' l9 e4 k+ q+ m6 m
    pipelines
    3 P) Y0 Z& N3 ~/ n  T+ qmain
      I; Y, e& \, T6 i1 q0 m! v爬取结果" [. |% ?/ c0 f+ M/ I9 h
    PowerBI分析
    6 R! b; B. N+ C6 j6 x; ]分析结果; Z, V# h+ F- k, L+ [
    项目说明
    3 b6 A& t# M' k0 u4 h$ ]) E) _6 P, E
    : y0 L: \, X1 }: [近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。) z1 V; z. U/ ?5 e" I

    + u7 S$ [! r4 F" r/ X9 r; p网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
    . ]5 W1 [; r9 S9 q, D6 W% s9 R) p7 G5 ~% \
    豆瓣TOP250图书分析
    & g! u! Y! T3 G! u; i& K
    % E* T. h3 a' Q该网址的数据会不定期更新,感兴趣的同学可以收藏~~~- S# m# v8 ^7 Q  Z% y
    1 n. F6 _) r  J* a/ _* P+ e
    Scrapy框架
    5 L, {$ D1 F! B9 T7 o8 h& b$ i) F) U! E) Y
    网页分析5 J" }5 p- l: D7 h. ?, w$ f. I

    4 t7 ]3 x$ P- _- {: t浏览网站,确定要爬取的数据1 V2 b& |) e" s! \0 O' X
    1.png & L/ M/ z0 N* Z, h7 f
    爬虫代码

    打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

    2.png
    ( j7 H/ r1 m2 n; [5 X/ b9 g0 N, l8 `; X5 e, }0 l- _; I
    进入项目路径,打开doubanBook文件夹; o1 E5 ]% G% k6 x
    4.png
    6 i9 l6 A3 m' A5 d4 a 3,.png
    / T6 X  R9 t. g6 s3 r; V# F* Q 3.png
    " ]. q" y' z& p+ ^ 5.png
    - |( P0 r: Z( I" j' o0 L: P
    * k0 S# R) ^+ Y' s  ?  }0 L, ]1 t4 z( c  F
    spiders 6.png # w3 U6 @8 l: X( Y0 J: O' ~
    main 7.png & P5 y" T6 T4 A0 G' j( w+ T, F; d

    % o' a, x  g$ ^  d9 E爬取结果
    0 O  M1 _; Y& V; P  y$ O 8.png - e6 y0 \# Q; v* e
    PowerBI分析
    • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
    • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈
      6 ^& k. W9 j9 u: X' D

    6 f% x( ~9 `) _) ]$ `* n————————————————6 c4 _2 E4 b- ]
    版权声明:本文为CSDN博主「soleilxy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。, X2 S3 ~6 Q+ S! `/ I9 ^6 b0 P5 `
    原文链接:https://blog.csdn.net/soleilxy/article/details/105931061
    + n# B% V$ w9 a) X3 ~" ~, O# ^( P5 @. ~% O8 g% v" V

    2 i& w* ]( r0 l; \1 g/ B7 u4 D
      f( K& j) v5 ]& D5 i

    14.png (138.88 KB, 下载次数: 727)

    14.png

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    2

    主题

    5

    听众

    338

    积分

    升级  12.67%

  • TA的每日心情
    奋斗
    2021-7-23 00:47
  • 签到天数: 124 天

    [LV.7]常住居民III

    自我介绍
    Hello world!

    群组2013电工杯A题讨论群组

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-9-12 00:23 , Processed in 0.361222 second(s), 58 queries .

    回顶部