QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 4769|回复: 0
打印 上一主题 下一主题

爬虫(六十九)简明 jieba 中文分词教程(六十)

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-5-31 10:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    爬虫(六十九)简明 jieba 中文分词教程(六十)5 q# ]) q6 f% P6 V6 q7 [! L
    & f1 t, S8 o" `" p/ X" B
    0 引言

    jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性:

    • 支持 3 种分词模式:精确模式、全模式、搜索引擎模式

    • 支持繁体分词

    • 支持自定义词典


      0 Z9 g  `4 i$ X+ h$ k
    • 2 C. H# m0 e% w( q6 b

      % t& @' |: k0 t$ T1 \) d; T# 导入 jieba7 E* W7 U. n% n9 u, \6 U( p

      1 @  B& G1 S1 B
    • & C: c7 A( {) |' n4 M$ h% q6 o6 m

      0 A& D' u' H; y) Z! u6 ?import jieba
      / b/ u( w  U( D& G1 q

      ( @5 i. [+ O. U" K* ]; s4 u
    • - _! ?0 Q: E* y3 J* y/ N% ~
      ' o* s! j1 T. p; T9 ?
      import jieba.posseg as pseg #词性标注1 X0 y& W3 \8 T$ E
      9 i2 z% S. J1 ^6 j

    • 4 W5 i' G2 Y$ c3 W4 D! U& h
      7 V+ l  N  c; K, ?- e. q9 A; p6 u
      import jieba.analyse as anls #关键词提取. @5 k4 x  U9 R# ~" J4 S' y2 C
      $ q% l$ M" l/ u9 e0 P4 x
      ; G' d  [. S2 n% v. X0 k- A

    1 分词/ h9 [+ L0 L# u8 F3 x
    可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词,两者所返回的结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语(unicode),或者直接使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list。其中:* K. i9 t; |4 ?( g# N  q

    • jieba.cut 和 jieba.lcut 接受 3 个参数:


      ; D* W4 Q$ @! X6 m$ q( Y( F
      • 需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)

      • cut_all 参数:是否使用全模式,默认值为 False

      • HMM 参数:用来控制是否使用 HMM 模型,默认值为 True


        . K$ s' E. O) l3 w. R
    • jieba.cut_for_search 和 jieba.lcut_for_search 接受 2 个参数:


      0 w8 C9 p7 p1 c& y$ {0 @2 K3 S
      • 需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)

      • HMM 参数:用来控制是否使用 HMM 模型,默认值为 True

        * G3 K) k! m5 A* K  c

    # 尽量不要使用 GBK 字符串,可能无法预料地错误解码成 UTF-8. \0 z0 V* ]  ^2 m1 |& _$ X
    1.1 全模式和精确模式+ d  p; p: N3 i$ n7 h
    2 b, `. Z0 k' H# {1 t: f

    • 2 t4 O& ~) B- U; }4 j/ O- _) p+ A0 x# o
      $ V) ^2 Z9 t' @6 S0 i/ N8 @
      # 全模式! a: [: H8 R0 p

      % f5 T- r4 m$ g2 l' w: F; T
    • 0 B1 s# Y8 {% y) |& R
      9 E, @- w$ W( ~& C
      seg_list = jieba.cut("他来到上海交通大学", cut_all=True): I0 c: @' B. J( s. T
      * n6 y  @3 f: v! R" W5 J( s

    • & q6 W3 k7 q. b1 _
      % q$ N! x" o9 j- i
      print("【全模式】:" + "/ ".join(seg_list))  ) G$ c* i% g6 T9 P+ E4 Q8 b4 h

      3 M# x  o7 r$ j9 f+ {2 ]0 U, h7 S1 B, V7 B; f% l

    【全模式】:他/ 来到/ 上海/ 上海交通大学/ 交通/ 大学


    • 4 \1 p: V% w; P0 l! a/ p2 L. w

        C- v- }; l# F# t% J# 精确模式
      : v* R6 `6 v: {4 W

      4 v) ~1 \3 i. m2 n: g5 p  \  A, G
    • : ?4 g! l) @, A5 m. u

      % D) v7 G; g" J$ I- V1 ]! r% W& ]seg_list = jieba.cut("他来到上海交通大学", cut_all=False)0 ?, o' A! s. I4 _

      9 d4 h* O# R5 t' b& [

    • ! W9 I6 J+ X& s- @8 @

      ; S, l, w8 R" R% `' Q% Lprint("【精确模式】:" + "/ ".join(seg_list))' T- k0 S  Y' M
      9 P4 m$ V, \8 }) D& \9 o3 e- m% L/ k4 P+ x
        E$ I! p; A6 G- |3 Z' l3 X

    【精确模式】:他/ 来到/ 上海交通大学

    type(seg_list)

    generator

    • 9 n5 q0 r+ b8 ?  S# c. u

      % K" t) Z) l& s$ Z/ m% `# 返回列表
      0 P' O; l/ {: p/ i" `1 a
      , n5 G) o  b" `& F# _$ G9 ?  H

    • , B3 D! Y8 M$ {: D- n* v( N

      4 @+ G) C* T2 c4 e& wseg_list = jieba.lcut("他来到上海交通大学", cut_all=True)
        f0 }( Q1 {/ {! z. l; D/ L' q
      * i/ B. l# z$ F+ J" E

    • 2 `7 Q3 o% m: W/ ?! g

      7 h; }* `% a, f/ F/ x. Z; Q! R! dprint("【返回列表】:{0}".format(seg_list))
      8 A2 k  {+ S- p, o

      8 F" ~& D5 b% ^9 k( D& {: M5 w8 `  R! I+ ^& X0 O) f. |" T% a

    【返回列表】:['他', '来到', '上海', '上海交通大学', '交通', '大学']

    type(seg_list)

    list

    1.2 搜索引擎模式

    • % x9 m, I5 |$ B' G0 {8 h0 K
      3 h9 ]8 k! @( h: l2 ]
      # 搜索引擎模式
      & U4 Y1 B9 d/ w2 J. i8 w

      # J/ v& e5 ^5 {) z( c4 C
    • 2 C7 f, M9 |  _0 a

      ! {- f4 w# ^* ]seg_list = jieba.cut_for_search("他毕业于上海交通大学机电系,后来在一机部上海电器科学研究所工作"); {: n! N# Z2 R5 ^6 v( g
      / _0 n) n# x; ?; _+ g" R, u7 L$ w: i  M

    • + n: j' G% M0 S6 a; c4 H; t
      , w% Z2 x8 ~* e6 ~' g3 ~4 p2 u9 z. \
      print("【搜索引擎模式】:" + "/ ".join(seg_list))8 u  }. P; W; m! M" z; y& w  y* J1 j
      & P! I2 O3 U9 N% {3 \# j
      $ W0 {: k  c, W6 q

    【搜索引擎模式】:他/ 毕业/ 于/ 上海/ 交通/ 大学/ 上海交通大学/ 机电/ 系/ ,/ 后来/ 在/ 一机部/ 上海/ 电器/ 科学/ 研究/ 研究所/ 工作

    • / B4 S6 M) k- ]0 ^, G
      8 d" W9 @) Z8 w4 T4 `: Z& |. J
      # 返回列表! S$ B4 t2 k+ d3 _) ?: o1 q

      7 n; R; z5 A9 {/ V
    • 8 n: u& g' ^% v
      . Q" O. }( D  z9 l" d- h3 N9 Q$ ^
      seg_list = jieba.lcut_for_search("他毕业于上海交通大学机电系,后来在一机部上海电器科学研究所工作")
      1 F" |% ~* H8 O  f" ^8 Z% z
      - e& y$ z( N$ w$ |/ H; w
    • 6 W3 t* y% N4 L9 l

      - H  A; o' k2 B: B- m& pprint("【返回列表】:{0}".format(seg_list))' B( X$ T4 L- B" F6 ^) _+ n% L, C

      " W4 u: \) u! U; t8 Z  ~& S; G, P* m& [8 v/ ~& q: K' U* i3 h7 n

    【返回列表】:['他', '毕业', '于', '上海', '交通', '大学', '上海交通大学', '机电', '系', ',', '后来', '在', '一机部', '上海', '电器', '科学', '研究', '研究所', '工作']0 K( G! L% c6 g" R  h5 \4 P0 Y+ G
      ]+ x! p# _& n0 P# C
    1.3 HMM 模型
    ; }$ N" w) M. U" sHMM 模型,即隐马尔可夫模型(Hidden Markov Model, HMM),是一种基于概率的统计分析模型,用来描述一个系统隐性状态的转移和隐性状态的表现概率。在 jieba 中,对于未登录到词库的词,使用了基于汉字成词能力的 HMM 模型和 Viterbi 算法,其大致原理是:6 K6 S# e0 N# d5 q  J3 l
    采用四个隐含状态,分别表示为单字成词,词组的开头,词组的中间,词组的结尾。通过标注好的分词训练集,可以得到 HMM 的各个参数,然后使用 Viterbi 算法来解释测试集,得到分词结果。7 w0 O- c0 `1 K# C
    4 |7 c: ]) l- |, i2 z
    # 代码实现可参考 HmmSeg.py9 s& h+ q4 T! T( W8 y+ N0 @

    * w- p) Z+ n! h$ z


    • 1 z! _: z: R9 p* M/ K3 {

      4 m! y1 g# t4 r+ _' W3 E  \# 未启用 HMM
      * D; @& Z. J( ^2 ^) |  O1 M
      0 F5 {0 G* v5 N2 b9 }# F$ l3 F

    • * k9 A% b) p* v* S1 o1 Y5 E! g

      : ~( q. H4 I# y" j9 tseg_list = jieba.cut("他来到了网易杭研大厦", HMM=False) #默认精确模式和启用 HMM& I2 ~/ ?! o& N- o$ b4 l4 B3 j

      8 v& P8 X, Q: [( m# \' t
    • ; Y* U0 r  _- a
      # c6 S  c: L8 O% p) Q4 B& S" f
      print("【未启用 HMM】:" + "/ ".join(seg_list))4 M& ]& h  n- P, z! h  x& r0 `8 }# [8 K
      9 T4 M6 {5 ?+ n

      # |! O% g5 n3 n5 G  u

    【未启用 HMM】:他/ 来到/ 了/ 网易/ 杭/ 研/ 大厦

    • 8 J) n1 B) }4 Y8 |+ @% A. f1 e$ b- i
      7 q* P  A; {' d1 A
      # 识别新词4 x0 a* l) R) X/ ^  J* [# d6 `, F

      1 Q& i' \# o- x( Q
    • ; P0 T' `, K; L0 ?# s& ]; P6 ^
      8 V( }; [! s: @' E8 }( i9 E
      seg_list = jieba.cut("他来到了网易杭研大厦") #默认精确模式和启用 HMM5 b. v/ F( L- W2 b0 o, a  m
      " R8 n6 J% U+ H( K

    • ; t- e' w- w- _0 F$ j% }# D

      ; `! k% F! r. x6 O  l2 f2 mprint("【识别新词】:" + "/ ".join(seg_list))
      + z5 J: V( y  I( a1 |- y+ h

      ) a4 C/ M1 a4 D9 _2 A) C* E3 f, N+ l8 s7 F

    【识别新词】:他/ 来到/ 了/ 网易/ 杭研/ 大厦

    2 繁体字分词

    jieba 还支持对繁体字进行分词。


    • & |1 K- ]& U/ ?+ \
      3 m/ L9 q  F4 c- r/ w" H7 Q
      # 繁体字文本
      : r+ Q; y+ {. M5 ]

      7 |9 z7 E* y' V. Y# B
    • 2 B  O/ m2 m/ g+ _! }" Q( M

      : B4 Z) _$ R0 ^ft_text = """人生易老天難老 歲歲重陽 今又重陽 戰地黃花分外香 壹年壹度秋風勁 不似春光 勝似春光 寥廓江天萬裏霜 """
      1 J1 K! k& E7 B% J- a
        J/ w- Y' ~0 G

    • ) f0 `( Z+ b. @! S+ B' L1 @
      * ~; K1 ~' K( U1 ?; `
      # 全模式
      9 h; ?+ e0 O& i4 s( b/ e% l1 A

      3 d' Y% J; Y6 B6 c. L8 B/ V
    • ! K) r9 c: d$ ~0 ?

      - v, Z/ @) i. l2 T2 n6 `print("【全模式】:" + "/ ".join(jieba.cut(ft_text, cut_all=True)))4 ]$ c0 L8 e/ O" n7 k
      # u: M. S9 B* b% H" _

      + B1 U& |) f, o* D4 F" v% [

    【全模式】:人生/ 易/ 老天/ 難/ 老/ / / 歲/ 歲/ 重/ 陽/ / / 今/ 又/ 重/ 陽/ / / 戰/ 地/ 黃/ 花/ 分外/ 香/ / / 壹年/ 壹/ 度/ 秋/ 風/ 勁/ / / 不似/ 春光/ / / 勝/ 似/ 春光/ / / 寥廓/ 江天/ 萬/ 裏/ 霜/ /- ?" w, h; r5 O" h4 N, T9 N: {


    • ( M9 O" O+ X1 F9 ^9 y

      6 @, H  ^' @+ U8 I" J: c2 |# 精确模式
      ) s% Q. @3 I' a! O

      3 L# ^4 R2 M% h& E; w

    • # I1 D/ `2 H3 W8 U
      1 ?: E4 G7 o9 e1 P- {5 D( [" ]
      print("【精确模式】:" + "/ ".join(jieba.cut(ft_text, cut_all=False)))
      , B6 @) \7 o4 g, @  t

      # A4 {' |" y2 @, O+ Y) Z  M) r2 Z: j. d( g! F

    【精确模式】:人生/ 易/ 老天/ 難老/ / 歲/ 歲/ 重陽/ / 今/ 又/ 重陽/ / 戰地/ 黃/ 花/ 分外/ 香/ / 壹年/ 壹度/ 秋風勁/ / 不/ 似/ 春光/ / 勝似/ 春光/ / 寥廓/ 江天/ 萬/ 裏/ 霜/) H9 G8 b* N8 P0 X' [8 G( y: e4 V
    6 a" ]7 z  J8 D. L
    . s- B" p: R: z6 t  A" ^

    • 2 ?: f7 @7 F; e9 k2 c8 W/ }
      0 P9 {- y4 R4 P; f* ^8 {
      # 搜索引擎模式, H. }( W- D2 Q" z
      . s$ v4 ~$ s1 j& e+ B8 K* H
    • / }6 g: N7 j. W# x( u0 g" S

      ; T. A: n* g  d) O+ nprint("【搜索引擎模式】:" + "/ ".join(jieba.cut_for_search(ft_text)))
      " V& m" M  j# f

      ' q( j5 y! {( i  c' A/ p7 g9 g: @2 V7 _( O3 R" n+ p- ~# [# c& A, _8 u- L

    搜索引擎模式】:人生/ 易/ 老天/ 難老/ / 歲/ 歲/ 重陽/ / 今/ 又/ 重陽/ / 戰地/ 黃/ 花/ 分外/ 香/ / 壹年/ 壹度/ 秋風勁/ / 不/ 似/ 春光/ / 勝似/ 春光/ / 寥廓/ 江天/ 萬/ 裏/ 霜/( v0 n/ b' J- |1 ~6 u

    4 P7 U" q1 Z( g3 i/ O" u% j3 添加自定义词典
    + S( |3 r2 |6 `/ n0 s. ~开发者可以指定自定义词典,以便包含 jieba 词库里没有的词,词典格式如下:
    , }. W2 R: f. q! k, [词语 词频(可省略) 词性(可省略)
    % k' L# q, ?. b; v: Y; F2 u- {- p4 ]2 M+ S' t6 N0 z+ E
    例如:
    & e( u0 @" t- ]; n$ D" G0 I, h7 X7 O) `/ ?; Y
      Z) P, W* l" v9 B9 v


    • & ~4 E2 }: h6 |, @( q

      + K) ]  }* W' Q4 q; J, E& a* P) o创新办 3 i" J& \* G: w9 x9 i8 x
      : C- j9 j% h9 G6 P6 g0 e' A

    • - _, S! o; s# M4 z" `) ~
      : @, x, d% N7 K7 x) r0 S
      云计算 55 @. R# Y" c1 s4 T7 [

      4 f& \6 V) e% N7 v; r

    • $ Z' r6 N/ G1 d+ ~5 L6 O

      / y4 I& n2 Z- y) b凱特琳 nz" o, M2 S4 o8 v7 m' ?8 j" G
      / Z/ A3 E6 F- J8 E' h* c
      ' S( P$ c5 C8 v2 v

    # 虽然 jieba 有新词识别能力,但自行添加新词可以保证更高的正确率。
    ' y7 d5 H9 Y+ m3.1 载入词典8 y- {3 D9 _) n- J$ O  b
    使用 jieba.load_userdict(file_name) 即可载入词典。: @9 U+ L$ n+ i& v2 q' p
    # file_name 为文件类对象或自定义词典的路径
    " e7 ?2 s- ^& B: G6 L5 ~1 ^* F
    : W0 Q  Q- f8 c6 |% A" I
    % ?, _1 t5 M: |9 m3 l2 l4 U


    • % Y; Q5 s1 V$ E. K3 n% s- s

      0 E5 t# I6 a$ i5 r% K8 d# 示例文本
      0 |7 v7 j# P# P" p0 V/ n( i

      5 ]; k6 D. y' T) ?- @6 S1 v

    • 1 l. g$ y8 B7 g' N1 G1 V
      ; _$ \" R9 a( X  }3 z+ D6 l! [
      sample_text = "周大福是创新办主任也是云计算方面的专家"
      * O3 m) W5 k$ {% c0 a

      " R  z: V# `% d8 c+ A8 G6 _
    • ( \  c1 `/ g4 \" {" W1 d
      5 p- L: \  w$ P  w' F  _" O

      ) o( A+ I8 E$ ]  R
      % p) E& c2 a! @

    • % p) u! i7 D: s- d) ?- f
      7 j) y1 E5 E+ E, b
      # 未加载词典
      % c! e& B1 Q; ]& S2 c, \5 M; d6 \
      % O0 O" {2 G3 X! v
    • ( N6 S, O# ~- R+ C( h; Q
      0 o2 @! P+ X, I2 Y3 T2 z& u; K
      print("【未加载词典】:" + '/ '.join(jieba.cut(sample_text)))
      8 S# ]. c5 y- M" G
      ( E, p4 h! |( _2 b. o' f$ u# P

      * C1 h0 T$ a7 g

    【未加载词典】:周大福/ 是/ 创新/ 办/ 主任/ 也/ 是/ 云/ 计算/ 方面/ 的/ 专家

    【加载词典后】:周大福/ 是/ 创新办/ 主任/ 也/ 是/ 云计算/ 方面/ 的/ 专家1 W: M  n$ C  t! q9 O! f/ V$ M' v

    0 b  l1 I; j2 L: L' I5 ?3.2 调整词典/ ]1 ]& a3 x, y  T. i* M
    使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。
    : Q6 d( z, W9 y" l6 K9 u
    3 K6 N5 p$ j% c0 ~5 m$ V6 {& |- W: k2 R1 V: k4 r/ V( @


    • ) U  c: D3 ]  v' }2 Y
      " A$ B9 ^5 T) m1 G
      jieba.add_word('石墨烯') #增加自定义词语# Q, R% ^( G3 K3 V& i+ @+ v! O5 t- _
      * D* ^2 \+ ~0 O* h( q, T& v

    • $ x3 z7 {& j3 Q2 i; m& w% S

      6 R0 x- C/ d; t8 j  \% S. ljieba.add_word('凱特琳', freq=42, tag='nz') #设置词频和词性
      1 j( n' E& w: y1 V) m2 [* p
      ! }# R7 u+ c5 L# U# B

    • ( {) u9 a, H& k/ e3 [: T) Q$ B

      " ~6 A( ~, ?4 c" ejieba.del_word('自定义词') #删除自定义词语
      ( F9 y, f3 }2 V  G: I) A
      4 W2 B$ V7 @; f) d+ C
      6 \1 Z0 X7 L' ^2 f# {3 P

    使用suggest_freq(segment, tune=True)可调节单个词语的词频,使其能(或不能)被分出来


    • 3 ^! i" b  i, Z

      # a- v7 J8 Z- g; g# 调节词频前
      1 e1 h/ h' d! t/ }$ G0 ^

      , c; ^9 l" B  L) y, r
    • ) j% ?. P  K$ o

      0 _% Z; ?- k  V0 A* z; Bprint("【调节词频前】:" + '/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
      7 l! x: N* D4 V1 Y4 o) p
        p8 H) j, c" z/ F0 J
      # O$ P% i1 _6 a* ~

    【调节词频前】:如果/放到/post/中将/出错/。

    • * ?5 q6 l8 L" u) s
      8 \) g/ O2 U4 p1 ?6 ]& C
      # 调节词频- I' m; l3 \2 _4 Y
      7 e# C' `8 _1 m' V* F

    • 6 N$ j  a0 `6 ]) N( s5 I

      + i- }  C' N( F' a  ]; N6 C8 ~! E( zjieba.suggest_freq(('中', '将'), True)8 `- W4 z, Z9 O% J- p

      - F' P9 l, r$ ]: ]$ X
      $ j8 P: M# S* l3 V

    494


    • " ?) w  ?) F5 p7 k

      / z- T: i4 \' T( R1 ?( b( S# 调节词频后
      ! ~5 j' D" T/ J. F' m
      ) S4 s4 c% x: a- ~
    • , Y% O9 n# F/ m/ j( x) s
      7 s' m; `' n; o# M+ ]" r
      print("【调节词频后】:" + '/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
      1 Q4 \+ e5 `7 Y% A+ [; U
      ) t' R8 S$ [2 Z
      # q: A$ S# v# x8 G

    【调节词频后】:如果/放到/post/中/将/出错/。% v* x4 U' ?! @6 P( [$ T) T

    9 M+ G5 O! g) z- d& G" G# B4 关键词提取3 q) h% N6 E8 M
    jieba 提供了两种关键词提取方法,分别基于 TF-IDF 算法和 TextRank 算法。
    $ P# N: }: C, q4.1 基于 TF-IDF 算法的关键词提取9 a+ ]' {3 S7 i( J. m* v2 V! ~# t
    TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度,其原理可概括为:
    ) ?! h) m: o& A+ b一个词语在一篇文章中出现次数越多,同时在所有文档中出现次数越少,越能够代表该文章( v! t$ s* v6 a% b7 M9 O
    " B" }# y/ J' |5 m& f
    计算公式:TF-IDF = TF * IDF,其中:. C# [6 ~( u' h/ n# c

    • TF(term frequency, TF):词频,某一个给定的词语在该文件中出现的次数,计算公式:* H2 d1 g$ u9 S
      5 m! L* x# t6 E: Z7 E* y
      5 o+ S; E: |' `/ d8 T$ C* Z# [

      * u) h8 B6 h1 {% @% o
    • IDF(inverse document frequency, IDF):逆文件频率,如果包含词条的文件越少,则说明词条具有很好的类别区分能力,计算公式:
      0 i: _! Q' Q9 r5 Q6 V. r6 F3 ]0 L3 C. v1 b" N7 F& ^, w
      # y0 q& U# q& M/ G" t4 m- q


      ' u6 {8 i) F' ]) ]5 _/ |. k: i

    通过 jieba.analyse.extract_tags 方法可以基于 TF-IDF 算法进行关键词提取,该方法共有 4 个参数:; f" U4 I! e. ~: m2 l9 r5 f

    • sentence:为待提取的文本

    • topK:为返回几个 TF/IDF 权重最大的关键词,默认值为 20

    • withWeight:是否一并返回关键词权重值,默认值为 False

    • allowPOS:仅包括指定词性的词,默认值为空

        n! j+ X; V$ {: @% w! `

    • % J" P* Y) z! G. u* Z1 Q( o
      + Y$ D) ?- c* {; R  J
      s = "此外,公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元,增资后,吉林欧亚置业注册资本由7000万元增加到5亿元。吉林欧亚置业主要经营范围为房地产开发及百货零售等业务。目前在建吉林欧亚城市商业综合体项目。2013年,实现营业收入0万元,实现净利润-139.13万元。"
      - L5 B* b1 Q& ^% A7 ?3 E
      $ c& a, n0 t- v3 `* [

    • ! V2 H6 D* D3 H& u! F9 u; ^9 }
        n' y+ y  {3 m9 V4 y
      for x, w in anls.extract_tags(s, topK=20, withWeight=True):
      7 I- u, R4 r  {, J) f* S

      ; ]9 C* {$ F% S% s

    •   P1 H- W- a8 Z8 A
      6 t; M5 |* g+ B( G
          print('%s %s' % (x, w))" _. B( g, V+ Q) z; }
      ! w4 G- t5 M0 U+ n% P+ D7 p8 T6 J

      2 [9 k7 b3 u+ L. @9 l) m5 T6 k

    欧亚 0.7300142700289363
    7 q+ L* V; ?/ A1 N- T+ r  Q# ^3 V吉林 0.659038184373617
    : O% J  Y! i& i' S5 d7 M' x0 J. J置业 0.4887134522112766
    1 S0 {5 X* L# O' ^: s万元 0.3392722481859574
    % }9 L& |" k# m$ ^6 |增资 0.33582401985234045
    / F" G( R% e* h3 j8 x4.3 0.25435675538085106
    5 ?9 r2 d$ L9 |7000 0.25435675538085106+ {# v. v  u) }7 p/ A
    2013 0.25435675538085106! v# o" Q; a- z5 z3 m7 H
    139.13 0.25435675538085106
    0 Z. c* q4 ~7 q) W3 c实现 0.19900979900382978
    ) j7 v5 J. t) g  M6 W: B: r综合体 0.19480309624702127% D# C9 b0 v  z
    经营范围 0.19389757253595744% a) l/ E, @$ F3 `4 ]$ U
    亿元 0.1914421623587234! [7 V2 L5 I% G
    在建 0.17541884768425534
    # T9 x4 a/ |2 _. A) I  w全资 0.17180164988510638
    . k1 R  H( y/ F. L9 t注册资本 0.17124415263 `0 o9 D; r3 I
    百货 0.16734460041382979
    $ q2 n/ ?+ I: p$ b7 c7 M0 B& S/ r零售 0.1475057117057447, t6 b. Q! `+ z, [# w
    子公司 0.14596045237787234* ~4 ]6 I. N( \& Y1 d# D4 P' [
    营业 0.13920178509021275
    ( E8 F& J3 H' `( H, [2 ?$ s
    * l' F& f* c& `8 Z6 u0 e3 u6 C5 Q使用 jieba.analyse.TFIDF(idf_path=None) 可以新建 TFIDF 实例,其中 idf_path 为 IDF 频率文件。+ I! Y7 z3 w4 ~$ t
    4.2 基于 TextRank 算法的关键词提取; t3 C: E+ M! R. J' U7 d+ F
    TextRank 是另一种关键词提取算法,基于大名鼎鼎的 PageRank,其原理可参见论文—— TextRank: Bringing Order into Texts 。: j: P* c+ c) j1 n
    通过 jieba.analyse.textrank 方法可以使用基于 TextRank 算法的关键词提取,其与 'jieba.analyse.extract_tags' 有一样的参数,但前者默认过滤词性(allowPOS=('ns', 'n', 'vn', 'v'))。) U% K- }  a0 G

    - c0 d2 B) s3 ^$ s6 b& W
    , q6 [, b8 o6 K/ R

    • 9 |1 P4 v0 a3 l/ F2 |/ [
      2 i4 e5 Q3 Y/ V4 h+ s% Y
      for x, w in anls.textrank(s, withWeight=True):
      5 [" ~; }& G6 G: _/ a

      , O6 |; Y, B4 `# \1 F* T3 ^8 @  z
    • 5 o. w; h! o$ Q) z  c3 g

      % R; t3 A3 d, o# r" _    print('%s %s' % (x, w))7 X- t3 d0 ?* k/ B' |- B9 D- K

        X, e6 ~- S$ ]9 s: y8 a9 m
      0 j4 f- q/ t2 N1 ^

    吉林 1.0
    ' J- K/ R1 V7 Q4 |8 V欧亚 0.9966893354178172
    ! x0 _0 @- _6 y% [8 W2 h: t5 ]- d置业 0.6434360313092776
    9 f$ ?% {+ V, i% l4 `( {! n' G. k实现 0.5898606692859626
    ! j: q* e! {. Y( c! [9 j$ x收入 0.43677859947991454
    1 T9 g) N- L: ^2 f) n% @! `增资 0.4099900531283276
    & d6 n: B$ N0 U子公司 0.35678295947672795
    6 _- v3 G% ^+ t: }2 W城市 0.34971383667403655
    7 H9 M4 P7 C9 G& k8 q7 @% m商业 0.34817220716026936
    , @; s$ w, w8 w% Q: W* e业务 0.3092230992619838. ^6 Q# f3 H  g
    在建 0.3077929164033088( s/ O3 L1 [  Q' z
    营业 0.3035777049319588
    % O5 Z9 W; L4 f  |  U1 O5 P全资 0.303540981053475
    1 S3 K" M/ u; f, \  E0 B综合体 0.29580869172394825
    + N9 a( v  X' O  D1 d, \: j注册资本 0.290005194640850452 Y! F( y- u7 c/ d6 X9 X6 w+ _
    有限公司 0.28078307985765742 M% y+ m& F/ T, t6 D8 `
    零售 0.27883620861218145
    ( P$ Y  ~. E' B百货 0.27816576284454768 {& D2 `( g5 C4 Y3 A, b+ E7 [
    开发 0.2693488779295851
    ; D) p7 P% z/ \* O经营范围 0.26427621735583164 [2 X$ P% h9 g9 Q0 i# B; ~2 C( r
    . I4 i% R$ _8 d6 o. v9 U
    使用 jieba.analyse.TextRank() 可以新建自定义 TextRank 实例。5 `$ z% T, n. _/ Z, w( Q
    4.3 自定义语料库
    " u/ D0 ^$ F( d1 j关键词提取所使用逆向文件频率(IDF)文本语料库和停止词(Stop Words)文本语料库可以切换成自定义语料库的路径。
    " ^: S* A6 }/ V' D5 ~1 i$ }5 U0 w* P! t# ~2 Q  |

    3 a5 z1 T' H) p3 L4 F


    • 2 C* r/ H' U5 _% `( w6 s. n

      0 o8 ^  [! @  W; Ujieba.analyse.set_stop_words("stop_words.txt")6 `" `* A, E  |* [; G# o
      ' ~+ p3 u$ @8 g5 }* O  [5 g
    • - X4 H  A; e) \/ I9 |/ c5 o6 W" H
      ; s2 n: o: j& }% p9 F- ~1 ]! O
      jieba.analyse.set_idf_path("idf.txt.big");
      9 z" ~" A* [7 ]( X& ?
      6 }- T% M" C3 |) b6 _$ y# q) L! V
    • ; r. X5 z2 R6 j9 y
      . U1 b3 Y' v2 A# c3 n  _. c5 M
      for x, w in anls.extract_tags(s, topK=20, withWeight=True):
      7 \; w& U% y9 [; o7 h

      ) t, Q/ g6 ~. p; U

    • ( }  v9 d% A9 @3 ]  v- S

      - K# N$ H$ b, n' b5 X    print('%s %s' % (x, w))
      / v- I' W- Q' {% T% S- l
      # J% |+ }- E; Q8 m, [$ ?

      9 y$ Y6 ?/ q# ~+ B

    吉林 1.0174270215234043
    . q% I. p0 u  B! n# t* x欧亚 0.7300142700289363
    / r! g+ W8 g1 r0 J) u增资 0.50871351076170215 ^5 {, Y* w9 R3 O3 d- j
    实现 0.50871351076170212 c5 W3 J) e3 f. t
    置业 0.4887134522112766
    # @1 h; r& `# G7 Y/ z" n万元 0.3392722481859574
    + g8 f( w! J  L" m此外 0.254356755380851063 \$ @/ d; [+ h- {$ d
    全资 0.254356755380851062 j; H$ ^. v! n: Y, S( W
    有限公司 0.25435675538085106
    6 {0 C2 P" e4 s4.3 0.25435675538085106: A- n& v# m3 A2 Y
    注册资本 0.25435675538085106
    $ ]* j  t1 e- k+ I- e7000 0.25435675538085106  {: k; H/ r; N+ y5 c- d7 A% K* S
    增加 0.25435675538085106% G3 y" w& A1 O5 J
    主要 0.25435675538085106
    , U( n8 R, [- A& {( `房地产 0.25435675538085106# f* j9 R2 j4 V, ~
    业务 0.25435675538085106
      Z* w% V8 Y; @" p; K/ X目前 0.25435675538085106
    ! T) I; z. b5 ^; F城市 0.25435675538085106
    1 i' D) i0 t! p/ Q/ h( P综合体 0.25435675538085106, |9 @: G( L. `1 F2 z+ N
    2013 0.25435675538085106
    % X  A  e( R1 b# f2 W
    % q( u) {. q# ~. T2 h
    0 \* V) h6 a; o& N5 词性标注. r, l" v' D& h/ O
    jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。
    , w3 A% s. ^# x+ M. g- e: X# 标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。
    , e% f8 ]' V# y) Y+ A2 k/ H( x) I/ F

    9 e3 n6 w4 n1 Y

    • ( h0 V$ Z- Z/ }) t3 C; w& `- Y0 Z

      # i1 ~7 U% }# G2 I+ {words = pseg.cut("他改变了中国")
      9 t/ K* J  {, z, J9 i, e

      3 W  t; `' q, P" _, i

    • % G( b) `* H% i% T+ y* Z

        U8 k. D& y/ ^/ J) K1 |for word, flag in words:
      1 k6 w7 I" M3 C- N% w8 g$ E$ x

      8 R1 c: N+ }* M$ P6 }
    • * a$ h$ {3 q# o5 s
      ! F' |! S9 Q0 G: J  i
          print("{0} {1}".format(word, flag))5 _, L$ z# J5 @' l, K2 c' ?
      * L0 V* S+ ~' e* S7 R. n- o2 ?8 h
      3 E1 g' o) y4 q4 t

    他 r

    改变 v

    了 ul

    中国 ns

    6 并行分词
    1 p' f% c% \) B, S将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升。用法:
    , g, T; y, E; Z* y) r

    • jieba.enable_parallel(4):开启并行分词模式,参数为并行进程数

    • jieba.disable_parallel() :关闭并行分词模式

      # p/ t( R7 W% m' P' X% s' l

    # 可参考 test_file.py
    : ?% _7 Y" w3 I: ~: e注意:基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows1 l: x9 Q& M7 z! S: p9 D

    3 S: V/ ^0 q* V) ^
    + h+ x9 |( a. E1 J# d7 返回词语在原文的起止位置

    使用 jieba.tokenize 方法可以返回词语在原文的起止位置。

    注意:输入参数只接受 unicode
    • ) j3 D, A8 ]( a
      " D/ z1 ~" @3 i  v1 k/ S- V; O
      result = jieba.tokenize(u'上海益民食品一厂有限公司')
      2 ~* v; q5 t" K! q& X

      ) `1 S& S9 h1 U+ t9 v/ V/ L

    • ( m  z9 \$ O; X9 K! v- n& P
      , E7 o2 Y9 M; N% s+ k  K
      print("【普通模式】")
      . G- H5 F4 v& \# f# ]' g
      & t" L1 g% K; y
    • 8 ~$ H* v6 {+ l  o

      * O; h5 X0 Y4 V; A( Wfor tk in result:
      " ^, |, ~. W4 H% ^" U5 ]
      . ~; j- K0 j- ?' b; l6 y
    • " J6 f0 K  ?5 c% l* V/ Y
      - U  d; d1 ~8 m+ k* j0 I
          print("word: {0} \t\t start: {1} \t\t end: {2}".format(tk[0],tk[1],tk[2]))
      & H- m' r" o* |* O

      7 ^; t3 r6 A! p, _. ]9 |6 t3 Y  r1 {7 L* ?" h- ?+ q

    【普通模式】
    : l4 B4 b8 F0 e  h5 J. f3 Nword: 上海 start: 0 end: 2
    : n* N; b1 C' sword: 益民 start: 2 end: 4: I8 u' \. {! B% m# d% |* o
    word: 食品 start: 4 end: 62 K& {: k% g% {5 K0 Q# \" I9 z" r2 a5 W
    word: 一厂 start: 6 end: 87 C4 C/ O. m8 Q! ^0 @0 q
    word: 有限公司 start: 8 end: 12% K$ E1 d+ I, G5 ~  k5 S: i  V
    * a8 u2 p; F3 t4 _' I

    4 U( H" J. s* b9 p4 F

    • 2 G% R5 n, w; z+ b. @% C

      - H+ j3 [. b4 L6 j, Aresult = jieba.tokenize(u'上海益民食品一厂有限公司', mode='search')
      % s% K+ \0 }; S3 C: F: n9 u

      ' `( d" W5 Q- L0 z) P$ c) Q5 x

    • ; [3 v% V; z% I1 ?

      ' _) ^5 z- W- \0 R; U3 nprint("【搜索模式】")1 g/ e3 F1 j+ L8 d+ ?' Z

      ; c$ r1 M9 K$ k$ W

    • 2 h! ]0 @. I* A  N$ q+ L" g5 ]: Y' j

      3 }. `3 P2 ]9 S  t$ I! z6 \3 bfor tk in result:7 p  M  [" v0 s- a- w& k( e

      , T/ z7 A  F/ ]( A( h
    • $ |3 x) h6 s: ~6 C- W/ W, z- }
      * P4 E/ r# Y" r! S
          print("word: {0} \t\t start: {1} \t\t end: {2}".format(tk[0],tk[1],tk[2]))+ E8 ]. X/ z* j3 y' p- a
      ; y& s4 c. x9 q! V) D7 N0 H9 ]

      $ n" p( a  G1 c' q# i1 E" F3 d

    【搜索模式】
    , c% `- ]# I! e' w' n; H8 {& E; vword: 上海 start: 0 end: 2
    % {* u# s5 W6 d+ _( Sword: 益民 start: 2 end: 4$ ]2 A* q/ T2 U% `8 H
    word: 食品 start: 4 end: 6' c1 ]6 o. \6 _& U$ @5 F
    word: 一厂 start: 6 end: 8
    7 i0 ~9 m" `* H: oword: 有限 start: 8 end: 10
    $ K( t+ i( M- }4 I6 i. u5 zword: 公司 start: 10 end: 12& i) z. y4 n  D; k, E5 J
    word: 有限公司 start: 8 end: 12

    8 q9 l# _' d! U3 J8 `
    6 X9 H+ x- n. r8 z
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-7-9 01:58 , Processed in 0.684710 second(s), 50 queries .

    回顶部