QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3127|回复: 0
打印 上一主题 下一主题

用Python把B站视频弹幕爬下来,绘制词云图看看大家最关心什么!

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-7-30 16:25 |只看该作者 |正序浏览
    |招呼Ta 关注Ta
    8 `5 [% w  K3 ^8 F$ Y4 O- E
    用Python把B站视频弹幕爬下来,绘制词云图看看大家最关心什么!, O* A0 p& f- n
    今天带大家做点好玩的,把B站热门视频弹幕爬下来制作词云图!
    9 }5 c! ?; d1 _: S康康大家都怎么说!4 Y5 k/ e& r6 g  R7 J0 _" Y! x

    # J: Z& i4 \* j2 {- ~  c6 V5 s

    $ K, `5 `. O: `1 h/ X3 o
    ! g- C+ J$ W1 [9 s% X

      V8 q1 b+ k+ u) D7 _+ Y开始之前先给大家啰嗦几句,可能有些兄弟不会安装模块,我大概讲一下。
    - V" [1 ^8 M% b: z! h
    $ x  I& q& ?: O# ^1 N* E* e
    3 J  E: f: }$ ]: {4 \4 v
    如何安装模块:4 v5 g# D' {# ]; O
    ! G6 F" Q2 U1 ^& y+ W+ F  P

    ' e& @& e. C0 M$ j  Kwin(键盘左下角ctrl 和 Alt 中间那个键) + R 输入 cmd 输入安装命令: pip install 模块名 回车
    & P% ~% e5 H0 o7 kpycharm里面安装 terminal 输入安装命令: pip install 模块名 回车, L! H8 \2 u( o, m& c8 u9 _
    如果模块安装失败了,可能是这些问题:6 B* c" g! O4 A; C2 G0 N
    5 Q  ~+ M! l9 s6 _5 {
    : J7 t6 o1 q  U& J  e! C
    提示:pip 不是内部命令
    8 E  W  _0 _2 C你python环境变量可能没有设置好/ p# j1 h* N% M& L! t
    有安装进度条显示,但是安装到一半出现报错了
    ) W3 l  }2 d4 h. ]因为python安装模块都是在国外的网址进行下载安装的, 国内请求国外 网速很慢,下载速度大概只有 几KB
    & @1 }" f8 g; m0 ?5 v6 F) pread time out 网络连接超时 你可以切换为国内的镜像源
    # x* I/ S! A" M6 o; J2 G! A明明在cmd里面安装好了,但是在pycharm 提示我没有这个模块+ e3 r; v/ T- X+ X8 z" |
    你pycharm里面python解释器没有设置,你在pycharm设置里面重新设置一下: Q/ i& z; h4 x0 y; Y
    可能安装了多个python版本5 ?5 x; p7 h+ @( e: J% y
    安装一个版本即可
    , z7 ~$ K. `3 [; G" JPython做爬虫到底可以做些什么呢?
    : I, F+ U8 k( g" s/ x) R; |5 a& N. d# d% g& N( a% y

    : N( f" D) X, M' a- E常规: 爬取网上的数据 / 我可以批量下载图片/文字/音频 视频…
    2 r+ C* N: ~+ R12306抢票 / 京东商城电商网站抢购脚本 / 朋友圈刷票 / 一些问卷调查自动填写… / 文章刷阅读量 / 音频 视频 播放量. _: ~6 l8 V, T5 B/ [+ P  {
    可以刷课 可以刷网课 自动 还能自动批量注册账号- M; L" B; ?% Q+ A1 p3 O
    模拟点击 >>> 游戏辅助 >>> 修改游戏内存(单机) …
    + \5 i0 w' ~5 J. @5 M; i普通B站视频可以爬 番剧是需要会员的. x! Y' i# N6 P# _
    , i: x- h% d$ Z$ p5 W3 S( I9 A9 U

    % X) ^6 Z0 k9 \0 K6 b爬虫都是通过开发者工具进行抓包分析 查询数据来源 ( 静态页面 / 动态页面 ajax异步加载)+ P: C; |6 e+ f* v6 D* _) I
    * K; Q% b' [) z0 P- `8 M$ p
    1 B0 v, a9 O8 M( G& X$ z4 S
    1. 确定目标需求 (弹幕数据 那个视频弹幕)0 J5 B- h! t7 o8 P
        确定了
    - h# d4 K2 F3 s% D  x2. 找数据 (数据的来源分析)
    ; ^, w$ C, M1 A/ P! b5 J- j    简简单单 找到了
    $ z( m# _/ A3 z$ t3. 对于数据来源的url地址 发送请求 (请求方式 / 请求头)
      {7 ~& Q8 a0 r' h+ b8 o    请求方式: get / post- A5 j1 F5 e. y) c  M- ^
        请求头: + x! _! m6 s9 `' c1 w, T2 {0 Y
        https://api.bilibili.com/x/v1/dm/list.so?oid=376200196  s0 K: K7 q, n' _: @
        (通过开发者工具去看一下数据的具体来源,是否是来自有这个网站)
    & S; e: d, U( V  w4. 获取数据 ) b& a2 u/ S2 g6 x4 ~
        文本数据 response.text 获取网页源代码' b" i: N; ~- [( ^7 a0 g6 g; v
        json字典数据 response.json() 通常一般情况是 动态网页  ajax异步加载 用的比较多
    2 Z9 i. ^" v/ E, Q! u+ R+ P: m    二进制数据   response.content  保存图片 音频 视频 或者 特定格式文件 ) i6 F( ]" `9 L. C; _
    5. 解析数据4 r( q3 k4 p! s
        正则表达式 .*? 解决一切  遇事不决 .*? 通配符 可以匹配任意字符
    5 [; Q$ l+ d2 K6. 保存数据" V1 F* M8 X6 E4 g
    1
    9 ]0 d& Z% ~* J4 z9 b0 `8 n2% r" [. S# B( l5 i) m( s. b' O
    3
    ; s$ z  g0 h0 D. h9 P( X4
    $ t; G' U" N6 l) c+ f0 s: e5) D- x" p, f4 g
    6
    ; A+ ^7 X* V5 ^7 ^- U0 E9 p7: {) O# k9 A% s: [+ {' }
    8% z9 b0 p! R, }7 n- K4 Q
    9
    0 g  ^8 V8 {6 L) G, L7 a106 [; W2 N9 G( h
    11, M& t9 a" S1 d6 @
    12- V" }+ X3 a  R4 h+ s
    13
    8 d, x' m* W/ W4 T" M( d148 D" X$ ~6 m# Q: X1 ^
    15
    & s) z% B* g/ |1 Y) p) W7 F$ _: _3 s& [16% N1 I, N) e# t) \6 \' b
    python除了做爬虫数据采集,还可以做什么?* t: Z  R+ G$ F5 G. O
    兴趣学习 还是 通过python技术赚钱 (就业找工作 / 外包)* S" S% @* t  ?5 E6 `1 J
    & N2 {5 \/ m) p! k) c4 `
    / }, w; D  E. y/ s# a3 n
    网站开发(就业/外包) >>> 我们课程是教授的全栈开发 薪资 13K-15K$ C: A/ J( r8 \% b& ^1 o
    比如: python开发网站: Youtobe / 豆瓣 / 知乎(以前版本) / Facebook / 美团 ;) a) O8 ?( T# C* y! v
    我可以做到这样么?
    1 l+ |* Z, W$ {8 ]0基础 初学者 从零开始学习,上线 通过 域名 服务器 数据交互,4个左右的时间 就可以独立开发这个项目 类似知乎的网站;
    ' `, R- }, E  [7 \4 L如果你做去外包(团队): python开发就业 大多数也是进入外包公司 一个 10-20K左右;0 O9 ~7 {! t( {- ]
    : m, v9 S. r) F5 u4 w9 i5 F
    : n( L& h4 J) H  u# Z2 O* L* l
    爬虫开发(脚本)(就业/外包) 可见即可爬
    $ `0 d7 g2 D$ R  b5 q虽然爬虫什么都可以爬,但是获取用户的个人隐私(信息 电话 身份 贩卖 )、国家信息、商业机密(未公开数据,或侵犯版权)、色情等违法信息用来盈利,就基本上人无了!
    $ E" m& T5 O* I3 ?/ v7 p7 b很多兄弟问我,可以帮我淘宝用户数据吗? 我都是告诉他们,这个我还想多活几年,这玩意涉及隐私,个人信息,你可以自己学了悄悄爬,爬完记得删了,用来实践问题不大,但是别用来盈利!!!
    8 v  u6 a  o7 Q之前有个兄弟爬取微博上面军事武器航母图片买给国外, 然后就进去了!所以奉劝大家,切记切记,别乱来!+ R) D. t( Z% f% h/ {3 [
    3 _+ m: B9 x+ p5 ?7 A3 l3 v

    4 t$ o) ^9 s) ?; y4 `7 D, a数据分析(就业/外包)& f) ^1 A- x: g8 P) \* S  q) x8 h# ~

    " D) C2 J: U" i9 @! O8 s! R

    2 a' p( J, E' g4 M5 n自动化(脚本)- J: K8 m, u" Q. h# c, {, B
    7 ~% L5 v4 M/ Y1 X/ f

    ! W3 o; t8 M; S* c( }( v2 W游戏开发/辅助(脚本)7 O6 F0 x6 O+ L% {2 Y

    7 s7 E! V& o8 c9 R2 }+ Z
    , M1 H+ O% V- n" b
    人工智能(研究生以上学历 要求很高)
    * a9 C; q$ C" s7 M
    $ R. Z: {' v9 L; ]! _
    ; s& b2 F0 _6 P# O; W) Q3 s
    等等方向还有很多,我就不一 一述说了,那些方向对于一般人来说作用不大。
    2 }% `6 `+ e* z  G" e' S: i/ x4 k* [5 ^, K9 Z: c7 u

    : E+ `+ f5 Z/ ^0 b, E7 C- ~+ \我们开始正题吧' Q' G' T# B. k+ I
    ) O* J$ U  j3 N2 K
      \$ U- |- Z' ]3 `" Q! O5 X- h
    爬虫部分:
    + F& }( W. j; K  J% U- H发送请求 第三方模块 需要pip install requests6 f, H/ \& \- @( U9 @

    5 h' i7 Q1 B- S

    / P' G. U. U  x( t' oimport requests* s, ^/ Y, U- Z; q  M
    import re  # 内置模块! |) {" x* j5 [, e0 S: T3 A

    1 C9 p* H1 }0 h3 W) M# M

    0 Z4 f( p9 o! J9 L/ e, h  Yurl = 'https://api.bilibili.com/x/v1/dm/list.so?oid=376200196'
    2 I8 [' b( O8 y7 A1 }3 ?) R. i1
    0 p0 w, j" M- F2 y; C/ G22 r% C' C9 k! @( n
    3* J% e  X8 _! T& D) R# W- D! E
    4" m% M; z, s+ }' x9 |" o
    请求头的作用就是伪装% ?/ z3 P2 N$ c
    5 o4 @# K. b5 ^8 v
    ) U: h% D! K8 ]" e, \9 z8 {  i
    headers = {- X! {1 v) q& t' [! W& G
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36': i# O" d; U. [) U7 W
    }
    / [- O2 M( P+ J3 d  W2 a7 J16 {0 H5 C5 |0 [$ h3 W* ^: s- j
    2
    # `6 A- Y  I+ U2 n0 S4 V3, K% a# z: H6 u0 ^
    模拟浏览器对服务器发送请求, 服务器接收到请求之后,确定你没问题 然后会给你返回 response响应体数据
    3 B" ^9 @7 x3 C6 F* x* l+ N函数传参
    / f; B8 D* a4 h/ I! O. s0 l9 X
    : V* g8 i5 r$ _  _/ `; A, k

    & _/ N: G2 W7 L9 }( S9 R# x* Sresponse = requests.get(url=url, headers=headers)
    : y, K. F; C: o' a6 R1  w' J7 \. Q! B' g
    <> 对象 对象意味着你可以调用里面的方法或者属性! `& [9 e6 t' F3 Q
    200 状态码 请求成功4 V0 @7 J4 a% L# h" X: S
    获取数据 文本数据9 i& \2 n! g' U
    自动识别编码" p3 m; j$ e" G+ d% _
    ! X. l& Z6 N& v1 d6 s, z7 i) W

    ; [. j2 W6 W6 r; e8 r; Zresponse.encoding = response.apparent_encoding, Z7 U- A+ F& |" z: g4 L
    html_data = re.findall('<d p=".*?">(.*?)</d>', response.text)& ~5 i6 ?  W/ T  q. ?$ l1 g
    16 S# n, {2 l( Z( E/ [6 b& w& Q3 r5 i
    2
    4 V, W  U% G5 `4 Q3 q7 E* ?content_str = ‘\n’.join(html_data)& M  `$ g( o' ]9 F" A! G# [
    ' b, [+ b- v' I7 c

    ' A& j" O: x3 W- ?要列表转成字符串 ‘’.join()
    & p' R4 `: ]  v6 Q* p2 R3 yfor 遍历# O+ O: e- q9 S. p! B1 U
    保存数据 保存字符串
    7 w3 {# X9 B1 u5 Vfor content in html_data:0 T: Z; ~- D8 U; u
        # mode 保存方式 w 写入会覆盖 a 追加写入1 U4 p" o- Y5 _: _
        with open('弹幕1.txt', mode='a', encoding='utf-8') as f:
    * p7 B; b) C; _$ E" T$ i" T* c        f.write(content)# B1 |( j; o) G5 r2 E
            f.write('\n')
    ( O9 X) V) h; l. C
    0 c" r0 p! F* p0 G; Y- r& X

    # I. c1 M: V5 n6 {' y2 x6 U# print(content_str)
    . X9 c' m$ l6 Q0 C' D% C# C1+ H+ Q( c( |1 [, \; b2 L
    2
    + ?! G) W$ h- ^% A, Z* J% ?3
    & `! Y3 @" W  B* B3 b* |4
    ( H' Y& b  g8 \" ?$ b* _5
    6 x  K; h3 f' D6 g6% C5 T( R0 K( M9 b% S( U. ~; R: i' P( D8 J
    77 i& S( _3 d2 H2 `- z2 ~; b8 B# J
    爬取结果
    : k: x) L+ d# P, g5 s
    7 G9 @3 Z, g9 y1 D5 v( m
    ) `2 G  P: P$ a4 O* A! N: a* q3 Z
    : U% w5 A* P4 x9 _6 p7 H: ?  @

    ' f/ |1 Y1 k/ c, g  ]然后我们再来实现制作词云图部分# S% g# S! f4 {
    ! ?( R% ~5 i$ J6 I% N" A* `3 N# O( V
    ; G+ c+ U& Q8 E# i9 Q) j
    首先要安装这两个模块! @. u1 y8 F( B, `

    / }, w) R0 {' s0 {# H

    # z( K, Y3 K$ A6 A+ L9 Nimport jieba( H$ I$ g9 S% s  G
    import wordcloud
    + P6 H# W; U+ a* q9 p* \7 ~% z9 }1$ j6 q( _* L' U% o
    2* R, C2 b  x% O$ l& R# A; I
    一个相对路径 一个绝对路径,保存好的txt文本名字要注意看一下,不对的话,记得改一下保持一致。& K* c* @: d1 O
    8 A1 b, l8 Y- O1 \- P
    + x+ ^0 y1 T: x- E
    f = open('弹幕.txt', mode='r', encoding='utf-8'), ^; [1 H) n9 y$ j9 q4 x% G
    text = f.read()
    + |: a) n, D7 Otxt_list = jieba.lcut(text)
    8 O2 R& [6 j% G9 c7 `1 r$ g# print(txt_list)  i* \& e% Z; A( q$ N0 X* \; K
    1
    : ]! L: K4 [0 R" X2* c. e5 H  A0 W/ Y! ~
    36 y, a' Y  f2 c1 s4 O
    4
    ) F* a7 N# n$ a* A9 w列表整合成一个字符串$ T# v# C  n/ {( f; i

    + g( r, n1 o  N( U- R
    ; E) @( E' Q; p1 A- ^+ M; n
    string = ' '.join(txt_list)
    5 Y( ~. E; M& V* O- K: N9 cprint(string)
    7 P( P1 f7 a* q! Kprint('---'*50)4 n0 }8 }: z) ~3 y0 E
    print(str(txt_list))
    9 k9 @0 p1 m+ u1
    , S4 p1 t+ m6 I/ q2
    . P. C/ M7 P( N- J: w* ^! d" M& S3( t/ R2 p( e( s1 c! x
    4
    / N9 _3 y3 I; R9 l+ u2 ]3 p词云图设置
    . _! Z* K6 P  ^. ?" Z0 L0 Q$ ?' k1 K* s: T" D. p

    4 S1 {8 w5 A9 \' V  @& s: b! Nwc = wordcloud.WordCloud(- f; F6 R; s8 l2 F
            width=1000,         # 图片的宽7 h! S3 V4 H7 s( M# x
            height=700,         # 图片的高
    / Q6 A, Y( ]  K  o9 b$ P+ G# H        background_color='white',   # 图片背景颜色
    . `' H) c7 i" _$ V  d        font_path='msyh.ttc',    # 词云字体
    - ^* x, K2 }( M% R$ @        # mask=py,     # 所使用的词云图片! T' e  [+ B" t+ {1 b
            scale=15,
    , C1 h; z- s' R% r0 y        # stopwords={words},         # 停用词( {  W! v3 U' b; H- \# r
            # contour_width=5,
    0 y0 R9 s. U8 N        # contour_color='red'  # 轮廓颜色! s9 G+ y6 @. K
    )! B3 s  u5 V7 E* G. {9 e
    1- M6 {2 G) }$ N, p1 a1 t
    2' m  E) T# t$ Y: T) q' m
    3
    6 S+ j4 S1 f) [8 ^# C+ P' T4
    ; C2 T5 d: d5 }" l) `% t* h, T' r3 a5, x. A5 ~/ r5 V. X* _( C
    6
    3 R( `, O! V" x* N$ p( z76 ]' |7 c* k0 Y( N" a8 l+ r- X
    8
    $ U) U& o, G2 C9
    7 [$ a% O- f1 Y* t5 i3 ~7 K& R+ W+ W108 S2 v! z. z6 \0 }% u9 D0 i: G
    112 h  W$ g2 ~& X* I/ I5 @2 U" X6 Z
    给词云输入文字
    ) S: ^1 `2 x( c* H9 ^
    1 [# q7 g$ |, i% k- L1 u4 i, ?

    8 ~: S7 a- i' @, V9 W( p4 bwc.generate(string)
    . O, X. M+ m: \. `: w12 V& e7 A) e$ `1 W5 t
    词云图保存图片地址
    + ~& ?' }  d( l, c( w; }; I% f+ U7 T+ u" W5 d
      p2 R. j5 B2 a( Y  f, b0 t1 T
    wc.to_file('output1.png')
    ! h  ~1 S& U( y& s1
    6 E5 [, t' Y7 L3 |) [' P词云图的过程中有点慢,大家不要心急& O; q2 g& |$ Q: k
    4 K$ O7 P6 V: ^3 j
    9 ]! G7 R/ N/ e/ b
    这是最后的结果
    9 e* F$ S( K* P& K0 r2 G+ a3 c4 R" l2 |1 G
    3 _+ C4 \0 o, n2 o% z# P
    没有加停用词,所以一些无用的词比较多
    " l; Y- f/ |! E7 k$ A9 m
    6 f$ T4 D9 Z7 a

    ) ?3 ?, V# |+ n$ K# R3 fstopwords={'了', '啊'}' a" z& y/ c- A% @& O# R
    1# o) `' d/ N8 c3 Q1 A1 g/ h5 M
    把这个部分的代码加入要屏蔽的词就OK了!比如我现在把 了 跟 啊 这两个字屏蔽了。
    ! z" s" p3 X3 ^+ H) {7 _9 F1 Y我们再来看下# M& G1 |: X/ N8 f; c: O" B/ I

    " j2 `& L" q+ g' b6 x+ r
    ! s6 I8 e8 r" s4 V
    不知名网友:666666 牛批 老哥我要学!!!6 H1 L3 H- T" q& T! [
    / Q- i1 C0 B& v% j, \

    # i6 H  ?7 P& r  I9 p
    5 l. i3 g( g1 o+ i  A$ y6 B0 u3 M4 u; i
    8 |( D: U! c& M' D" |2 n$ p- j# F
    ————————————————
    1 v1 Y/ F- p" r5 K9 z版权声明:本文为CSDN博主「编程界的泥石流」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。; E) x  Q$ C. Z2 j/ o& o
    原文链接:https://blog.csdn.net/ooowwq/article/details/119211907+ k7 `& ?% W; m3 Q. v$ o

    5 M' F) H5 |& U, {4 c0 Z7 Y, \% l
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-15 15:47 , Processed in 0.467284 second(s), 52 queries .

    回顶部