爬虫(六十九)简明 jieba 中文分词教程(六十)
9 {- X: z1 V5 r. e$ V8 j* e* F' A) ^1 t4 p# [: g
0 引言jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性:
; ~7 w5 S! d+ c$ }' G3 C
( ?8 N2 ]5 {9 K7 N" Q) Q# 导入 jieba4 K/ I+ Z" M* W0 C4 s
: A' u" f9 l, z" `0 V8 e
- 8 ^7 N/ T" l1 K0 p2 O, K! X8 F
& C1 X3 c# j0 Y' L- }) t
import jieba
: k9 F1 z( |) l. w! X$ g y9 _( A ^. ]* `+ l A0 Q
- + A3 C, ?* U; s6 _" v
4 e, C2 E2 M8 w2 Limport jieba.posseg as pseg #词性标注
2 n7 {5 U y# v8 K6 O
- F; { W, y: m
/ l2 U/ x' f; W! z J
( e& [: Q9 M) l) L6 \& Timport jieba.analyse as anls #关键词提取7 c. y9 ^8 L/ W' r, D' b
% {. ~: j( c8 q/ j
4 p: c! E0 R. j- Z8 e
1 分词
7 C% k& B% T# F" _- M8 H5 n可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词,两者所返回的结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语(unicode),或者直接使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list。其中:# J8 r1 i8 o' u9 A6 x6 K9 A6 p' z. X: s+ m
# 尽量不要使用 GBK 字符串,可能无法预料地错误解码成 UTF-8 U$ q) s) j) Z
1.1 全模式和精确模式0 R* z. \" W# v; d
% M( \+ H7 t2 j, T- [ - & Y% u0 h# c4 I/ Q2 d- @6 _) H
. x6 I8 `1 N. y2 I% d$ w
# 全模式. R; ?- s9 Z5 ]0 c, P* [5 Z+ m
# ^4 t; h; N8 b0 S8 m8 d: e - - r( m7 m' ~3 \; f2 R7 _7 R$ M. Y
4 L, N0 c, H' S/ P4 h6 k
seg_list = jieba.cut("他来到上海交通大学", cut_all=True), _5 q Q8 ~; U$ r" c9 B! Z
# A$ q: y/ U0 i- T
* M; U& ~+ R1 X2 D4 l' z7 ?9 z0 V& ?* n7 r& O2 B' J( Z9 i: D' ?7 b
print("【全模式】:" + "/ ".join(seg_list))
) G9 i* B/ n9 N+ o! }( I- l# e# z d( m# a4 P! l) k$ h. ]9 o2 ~
$ t. {2 Q; {: c7 w0 ]4 Y
【全模式】:他/ 来到/ 上海/ 上海交通大学/ 交通/ 大学
- M, m" l/ Y( P2 s5 \
+ H7 E/ O( P- h5 _3 J" y# n: b! q# 精确模式
- G5 D9 [# z% Y; J" N8 O1 o; X; {
, n0 T- {( @$ I( Y1 ~* J- * K5 I( n" F% H; m7 K
4 \, y% \* [1 ~0 jseg_list = jieba.cut("他来到上海交通大学", cut_all=False)8 W# }, d$ f' ~0 l+ T6 b
+ M$ J% Y2 j" l% s - ; H8 ~; a$ C c' M
+ z# C) E. T, _7 U* ]0 Kprint("【精确模式】:" + "/ ".join(seg_list))
8 e+ u2 w$ x1 q, P& k9 b( |/ ^' g. S, d. M& @- | M7 b
9 H/ @9 A% d2 D* ~, E
【精确模式】:他/ 来到/ 上海交通大学 type(seg_list)generator - + R5 }0 t# J4 Z6 m, M) l; R: T
8 _% q) `/ [: F" t
# 返回列表 t; q) i3 W2 z3 t$ ~; k
# p8 T% J! I0 L) k
, q" N# k. v; \( I. _, m6 [6 J3 u
5 m- V7 Z0 R* N9 [" j* [5 X1 O7 {: Q# rseg_list = jieba.lcut("他来到上海交通大学", cut_all=True)
! L! K9 \( [3 Q5 \, ~6 j: v# ^1 k+ |' a9 q
- ) U6 n0 X! k& i! A. I4 V2 q5 \: {
8 \. p( u N; T# {' ]print("【返回列表】:{0}".format(seg_list))
7 M* u A% A; e A5 a0 I2 O4 j1 [6 \# R9 [) k
, s; T* h# E2 L( }
【返回列表】:['他', '来到', '上海', '上海交通大学', '交通', '大学'] type(seg_list)list 1.2 搜索引擎模式 - 5 ~( v1 o0 ~2 {# [! R! y# ~
; C/ k' C" }" s. G0 j9 @# 搜索引擎模式$ O# |6 W# K, r& O/ z" O5 F
9 a) i2 _+ {+ x# E0 A
$ }6 @0 x8 U* f9 ]/ t$ h3 M+ E2 _7 H6 [7 F. ?
seg_list = jieba.cut_for_search("他毕业于上海交通大学机电系,后来在一机部上海电器科学研究所工作")
5 v. z# Y9 _* X+ s
% y2 F3 n) y' E- i3 r. I
# b5 i8 \, ~6 r* c, `1 N
" ]* z) h/ H# S2 f' j }print("【搜索引擎模式】:" + "/ ".join(seg_list))
0 m9 \/ z4 x- D# Z- f- s3 o6 y& M U# d) F2 O7 P
: B& Z4 ~/ _" T% W! _; _: ]" o! M( X
【搜索引擎模式】:他/ 毕业/ 于/ 上海/ 交通/ 大学/ 上海交通大学/ 机电/ 系/ ,/ 后来/ 在/ 一机部/ 上海/ 电器/ 科学/ 研究/ 研究所/ 工作
& `$ @6 l7 T9 [% p5 o* a. P
( X; r/ v4 V+ @0 |3 _# 返回列表( s+ w$ b% ?/ @: Q1 V& x2 |
) ~ u# \& N( e$ \
% g# _. ~6 R2 O: e) n
# h- G" L* ^" ]6 {. x7 ^6 i3 e4 Bseg_list = jieba.lcut_for_search("他毕业于上海交通大学机电系,后来在一机部上海电器科学研究所工作")
/ Z9 C5 x2 y9 [3 F+ n+ Q& \" x; j4 Y/ b
/ d7 U0 c& w5 l L5 p" Z
0 _& r' K/ r' T2 z6 J9 x# y* J+ _print("【返回列表】:{0}".format(seg_list))
5 V& N7 ~# J6 G* ?! V( T
; w0 o- y( r8 q9 B2 B$ }4 v( N! C! T4 x8 {! u H* w
【返回列表】:['他', '毕业', '于', '上海', '交通', '大学', '上海交通大学', '机电', '系', ',', '后来', '在', '一机部', '上海', '电器', '科学', '研究', '研究所', '工作']( H+ u4 f* o+ K% P$ W z
& Q* R5 O8 |6 h. f' A4 ?7 O* } B1.3 HMM 模型6 _, ~# s0 x- @5 o$ r
HMM 模型,即隐马尔可夫模型(Hidden Markov Model, HMM),是一种基于概率的统计分析模型,用来描述一个系统隐性状态的转移和隐性状态的表现概率。在 jieba 中,对于未登录到词库的词,使用了基于汉字成词能力的 HMM 模型和 Viterbi 算法,其大致原理是:3 F1 v b8 x* s: y+ O- v- r) c8 t
采用四个隐含状态,分别表示为单字成词,词组的开头,词组的中间,词组的结尾。通过标注好的分词训练集,可以得到 HMM 的各个参数,然后使用 Viterbi 算法来解释测试集,得到分词结果。
; K+ j/ f$ f. z: ~8 g& m8 J; a8 i1 |5 o( j: F! h$ l
# 代码实现可参考 HmmSeg.py
! `* @, o! O7 x4 }" F
& k( d& \) v6 Q0 i - 8 g. m) g3 J+ X
4 o2 P" b# j7 }0 O' b$ O# 未启用 HMM
, ]' C g W, n; D6 P$ z* r% |* M% y8 Y3 X' O3 Q
- 8 T5 ?8 v. }+ U1 r0 `
0 F+ L$ e& |" v- Y* G4 T2 q5 rseg_list = jieba.cut("他来到了网易杭研大厦", HMM=False) #默认精确模式和启用 HMM4 G0 N+ v7 B; p% G; ? S! O9 [! F; ^
8 D& M& M& `% _/ |; x! K
2 d2 h: N& H- ]3 Q
8 U9 N6 J0 G. a: j8 a; f* sprint("【未启用 HMM】:" + "/ ".join(seg_list))7 O) m, T" l: m
+ o) I/ Q$ @+ o! C" }
# g% W; z9 v' n* B8 M0 I3 {/ B
【未启用 HMM】:他/ 来到/ 了/ 网易/ 杭/ 研/ 大厦 - ! y! } ]0 M1 x6 U4 ]* w
" A2 O4 l% C& k3 {. b
# 识别新词% U+ n6 o# E: C1 v+ z
8 X- ~& G. n* _, K. f$ g9 m - + u+ w8 K9 B& h8 E9 I. W% T
: T9 o9 K- Q! y' o/ R, Q/ D
seg_list = jieba.cut("他来到了网易杭研大厦") #默认精确模式和启用 HMM% b( W6 Y8 u; h/ }7 w3 c( P
9 x9 C; k9 n7 Q* }5 O
9 j" {2 b H9 D: o5 `4 U
& |8 B% c3 H3 [6 E; I. a% t6 bprint("【识别新词】:" + "/ ".join(seg_list))
+ S y) q# \9 u4 {# k6 o: d3 T8 k& m5 S
7 W* L; ~& M' m3 d
【识别新词】:他/ 来到/ 了/ 网易/ 杭研/ 大厦 2 繁体字分词jieba 还支持对繁体字进行分词。
' V7 R ?5 H, j7 n( h# e
# q3 S0 n) X0 Z# y6 ?# 繁体字文本
& m% _4 W. f1 C8 _# P8 W( R( l8 e# n" [0 ]& `) c
- . T" s' |$ F3 N6 w8 I
3 O3 \4 C. \4 P; ]: l$ rft_text = """人生易老天難老 歲歲重陽 今又重陽 戰地黃花分外香 壹年壹度秋風勁 不似春光 勝似春光 寥廓江天萬裏霜 """
; b! R' d) `+ d; t( W
% @ o! Q0 R9 ?4 ?. j
( o1 m2 _4 J4 Z9 Z! c0 V5 `: }/ {: ]" c
# 全模式5 Q0 C+ Z5 h, y. j7 f+ x3 Y4 z% D! ?
; O$ y* t% t4 k3 j- 9 }3 ?' C6 g+ c2 Z$ \
: h# F0 L1 k6 v7 b0 Jprint("【全模式】:" + "/ ".join(jieba.cut(ft_text, cut_all=True)))$ Y) `$ u1 y) n j6 A2 X( i5 L
% ?* H$ n$ S; K0 A
! M) G+ i" L i% b4 f( ?2 B
【全模式】:人生/ 易/ 老天/ 難/ 老/ / / 歲/ 歲/ 重/ 陽/ / / 今/ 又/ 重/ 陽/ / / 戰/ 地/ 黃/ 花/ 分外/ 香/ / / 壹年/ 壹/ 度/ 秋/ 風/ 勁/ / / 不似/ 春光/ / / 勝/ 似/ 春光/ / / 寥廓/ 江天/ 萬/ 裏/ 霜/ /. w8 s+ x) u6 z4 p
- 2 C8 l7 A' O( R* _' `+ s5 k! g4 P
2 v* q1 O, \$ m N/ g1 p8 v# 精确模式/ W/ O+ N/ I6 ^' r
4 q3 R; S6 r7 d/ v. \% p# F
2 t+ B- ?# ]. |) k X( ^& e: O+ v# e
print("【精确模式】:" + "/ ".join(jieba.cut(ft_text, cut_all=False)))/ ]0 v6 `# S4 @
0 {4 J2 q7 E4 E) `1 Y' ^& q9 d- j2 o- D- J: ?8 _/ v
【精确模式】:人生/ 易/ 老天/ 難老/ / 歲/ 歲/ 重陽/ / 今/ 又/ 重陽/ / 戰地/ 黃/ 花/ 分外/ 香/ / 壹年/ 壹度/ 秋風勁/ / 不/ 似/ 春光/ / 勝似/ 春光/ / 寥廓/ 江天/ 萬/ 裏/ 霜/3 {5 y+ m1 P ^1 v" n
1 W) r, x" }+ z8 S2 a8 \0 h# a m4 D8 ^. M1 f) h# }
- / z0 P5 t# }# n" {9 |
7 m) V8 U' h7 G" h- ~# V+ S: W- |
# 搜索引擎模式
- K7 ~( i/ B' @1 u
" K9 f" ~) E1 C$ H0 e( ? - / f$ g/ @ b2 q5 |
+ k( ]9 @7 p+ t+ `8 @! }print("【搜索引擎模式】:" + "/ ".join(jieba.cut_for_search(ft_text)))
2 w3 |) |/ c( i/ D
, ^- }6 `3 w$ ^
: Z. _3 {% J4 j3 o- L3 Z
搜索引擎模式】:人生/ 易/ 老天/ 難老/ / 歲/ 歲/ 重陽/ / 今/ 又/ 重陽/ / 戰地/ 黃/ 花/ 分外/ 香/ / 壹年/ 壹度/ 秋風勁/ / 不/ 似/ 春光/ / 勝似/ 春光/ / 寥廓/ 江天/ 萬/ 裏/ 霜/) c( @. p4 a" S
5 t. I& D+ b/ ~$ M3 添加自定义词典7 m$ ]* `4 L' T- L2 }1 }$ Z
开发者可以指定自定义词典,以便包含 jieba 词库里没有的词,词典格式如下:
, O) z6 P. X# [4 T4 T) N: p, V* ^- w词语 词频(可省略) 词性(可省略)( ]& H) t$ x# q" t% _% P+ e
0 F H, O: K" D. {- S例如:2 ~/ ` ~& E: {9 q# M, d
$ G+ X- o h) Z" K1 ^
: x$ g0 [ ~! W6 B9 G# v - . g7 c7 V, S) h+ M: t. }1 K4 B. E" o0 o
- x8 `4 u( V" z" g
创新办 3 i
2 R0 d# W8 A2 ]0 o) [
0 a2 Z- ]$ {+ ?0 Z - / J; L, t" a1 M
3 i4 F7 R# c4 Y, P6 Z
云计算 5
a {; J6 Z* ]1 l$ ^. Z2 A! v; ^% f0 E# P) n$ d! F7 m; E4 G
e5 V" j, Q* r& S% F( |4 V$ ~7 u
凱特琳 nz
1 {6 ^, j9 C: r6 u% R2 x% K4 f' ?0 j% S2 M: c
$ Q [) G) H" e5 V9 e5 a
# 虽然 jieba 有新词识别能力,但自行添加新词可以保证更高的正确率。* d% E) {7 j8 g. J y/ A
3.1 载入词典
T: c* x1 }! f+ J使用 jieba.load_userdict(file_name) 即可载入词典。
/ r3 w/ r5 I# _3 M# file_name 为文件类对象或自定义词典的路径9 d/ F; U: i. m1 h
$ A$ _/ r+ R0 q3 \
" g3 ^9 B* C- s$ e
( K4 ?& O5 G' E1 d' J0 V1 a6 Y1 ^+ V0 x0 S2 f
# 示例文本% c6 t7 b) J5 Y0 Y% V: g% }
' S# |$ f6 W) p7 ^7 R1 R, s
/ \9 E6 h# ^+ w4 a- \* s: u- N9 q/ x; g
sample_text = "周大福是创新办主任也是云计算方面的专家"
9 r, k) C% w$ B8 a8 R! s8 n' u) C3 V' |. y6 F) w% k( d- c+ j
, j$ w# b, [$ i0 T$ k$ M9 k) o4 j: h! \$ O
) l2 `9 t$ u: e' @6 q! e
- h0 _8 [6 ^4 O: f; T" _
! o! X! S6 U5 w" o' ]* J s6 E6 h% [5 Y; X# \
# 未加载词典; d+ x2 [2 g. M% X# N3 a6 ^- g
' ]$ q3 x; `' s' n6 Z: E
. Q! z& a$ ? h+ q& e# J$ c; M1 H/ l) B6 _% a0 O1 {
print("【未加载词典】:" + '/ '.join(jieba.cut(sample_text)))
5 O3 ]$ W6 u3 y ?7 t( a& n6 _/ Q) Q/ }8 ]3 D8 H
7 [$ \8 e& D& t. a6 H+ G
【未加载词典】:周大福/ 是/ 创新/ 办/ 主任/ 也/ 是/ 云/ 计算/ 方面/ 的/ 专家 【加载词典后】:周大福/ 是/ 创新办/ 主任/ 也/ 是/ 云计算/ 方面/ 的/ 专家
: Q6 c5 l: o4 j5 e& b' v1 |) T# x2 J/ K$ E: B: ?
3.2 调整词典
9 i7 h# Z3 a: `4 a. Z/ [使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。
6 \( y7 G$ b3 N n1 k5 P# A+ j
1 ^. B& Z( a) U- x
- & i! n$ g0 c9 W- S2 F7 a
/ V: ?) D$ s0 e5 @6 A# }( P, @& x1 s
jieba.add_word('石墨烯') #增加自定义词语
2 a3 w" W& l; f2 z2 W/ o/ D& ]( \ {9 D+ u: X3 _% E8 Y
- q1 }$ |& X/ a% e7 d5 Q
+ j! t. X p& J( n( Y: F! ljieba.add_word('凱特琳', freq=42, tag='nz') #设置词频和词性
# U0 \* h p. V( Q- M" \3 Q& ^
5 w! f$ G F& S }
8 H8 c. `# Q+ Q9 G- d0 }- j7 a- l$ E+ r
jieba.del_word('自定义词') #删除自定义词语
% T6 t6 {9 D+ q
0 f: j/ E1 J' N. H) U; B
* _4 t( o2 u% R( E
使用suggest_freq(segment, tune=True)可调节单个词语的词频,使其能(或不能)被分出来
8 E* @/ I2 J9 E# H* T0 f. t( ?, g7 B9 q
# 调节词频前
0 v K% S$ X( x6 M5 `$ b9 o" j$ `1 ^7 p2 L: D
- " F- c0 J9 ^- t. J3 v- i3 |+ U4 n
" C8 [3 J! d- z; ?( K- x: kprint("【调节词频前】:" + '/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
1 Y3 ]% c% x8 A0 _6 L! `2 c7 O' s( f9 e0 i/ r( f3 {
1 C( T3 j- o. i
【调节词频前】:如果/放到/post/中将/出错/。 - 3 B+ X" n+ D+ ?. X9 ^' S% \
( R! a( @, Y: \0 P: d: `6 R# \+ |
# 调节词频
! V1 w* p$ y! b( X/ Y3 y9 \4 z5 j2 G$ i
/ _, F5 F; |* M - 5 j2 B. l2 u6 @' e& c1 q
/ b0 n& m3 W4 C& j+ o
jieba.suggest_freq(('中', '将'), True)
5 B# s5 W: ?9 } Z" P' E8 m7 p u; ^( S7 |
7 u- {. v" T1 w! f) n# u: E ]
494
" e3 Y! o0 i: E# c( q: y8 P
, o0 D7 e/ ^9 I# 调节词频后1 h, n7 i( p) u+ g! a$ [
! I- a* g, V9 u9 \: c
6 N) K- g( `" |3 e; J* K3 f, B4 c' u5 q' a/ n9 O8 |, p8 ~; z1 f5 {9 H
print("【调节词频后】:" + '/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
3 o% |; ^7 G2 U' R* G
$ X. k% ~; a5 R2 I5 A0 g0 K! ^9 f
w$ X4 t0 X3 n" }' I& E
【调节词频后】:如果/放到/post/中/将/出错/。
5 Y- q3 {9 d i0 G4 H' q+ G5 v
4 {# B4 O- ~" h% j' Q4 关键词提取
$ F& |, \- t5 \3 I- `6 B1 L$ s( g! ~7 Xjieba 提供了两种关键词提取方法,分别基于 TF-IDF 算法和 TextRank 算法。: ?+ S% r: g# p \
4.1 基于 TF-IDF 算法的关键词提取. n6 B$ |0 T( k6 h3 X9 r: R- ]
TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度,其原理可概括为:5 N8 T4 W5 F& R3 j
一个词语在一篇文章中出现次数越多,同时在所有文档中出现次数越少,越能够代表该文章
" r' V" M9 j. k7 I- S( p1 b. c% O7 ^& P8 u
计算公式:TF-IDF = TF * IDF,其中:+ x8 b" \1 t. w3 i
TF(term frequency, TF):词频,某一个给定的词语在该文件中出现的次数,计算公式:
: Y0 b+ a( @# } K" ]+ N2 M- V. p, \2 o) F' S; T4 ]
4 m, O* Z$ U, u6 J: T4 i& L! ^
& s) K* _+ F& [3 O# n) s
![]() ![]() 通过 jieba.analyse.extract_tags 方法可以基于 TF-IDF 算法进行关键词提取,该方法共有 4 个参数:2 U; ~! c( M. `. F' {) k* S0 }9 F
- ( c) D& l+ w5 n/ y) l
! w6 M% M8 X. i, [( z3 i
s = "此外,公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元,增资后,吉林欧亚置业注册资本由7000万元增加到5亿元。吉林欧亚置业主要经营范围为房地产开发及百货零售等业务。目前在建吉林欧亚城市商业综合体项目。2013年,实现营业收入0万元,实现净利润-139.13万元。"
# F# q: J1 V) `- s
" O% o8 O1 b+ A. [ - 3 \. O2 [5 q# N5 t* E+ ~' P
g- A6 q' p9 C; ~
for x, w in anls.extract_tags(s, topK=20, withWeight=True):
|9 p6 c' Q! h# r" Y3 r
' b7 R9 H" b* O2 W, U/ H* x% T - ' Q, O& }- a* q+ D6 @
4 M, X1 G+ e3 {9 p' w/ w; x+ j% @' |2 u: N
print('%s %s' % (x, w)): T0 {9 |8 _" @/ U; O
& \+ ?: q: I! m( H/ x' R0 o: K, W, q8 R% C: Q! X8 e& M8 R
欧亚 0.7300142700289363
2 ?" f1 N& M, j8 F- ~吉林 0.659038184373617
6 a5 G% g+ \( a; S* w置业 0.4887134522112766
" e9 A; h/ C+ w$ w7 m6 v万元 0.3392722481859574
- |2 r2 a; a2 \* _增资 0.33582401985234045
1 A: y2 B, x/ x( F4.3 0.25435675538085106
1 o- g2 h. ]; R1 f. ?3 Z( H7000 0.25435675538085106# ?1 I' A, U, ]3 {! P7 m
2013 0.25435675538085106. u# l/ Q9 u: Q+ h5 v8 j
139.13 0.25435675538085106* c V' I/ k/ f9 G- A
实现 0.199009799003829783 n" r% I4 n4 G5 M _$ }2 p0 G
综合体 0.19480309624702127
* W, t( U, [$ t& D4 K经营范围 0.19389757253595744
5 D1 z8 K |( i+ p: ~+ C, W亿元 0.1914421623587234
8 h$ ^1 T* P$ r% n" P! k. G在建 0.17541884768425534
1 ^+ `$ m& Y7 H2 u9 E全资 0.17180164988510638
/ E4 P% Z4 P) z( \注册资本 0.1712441526' b0 I/ F r7 \# z
百货 0.16734460041382979( N, }& {3 D5 n, y; |5 J0 f* t
零售 0.14750571170574479 p; j U# m) ~8 B& ^
子公司 0.14596045237787234$ W/ z7 |) d% [3 W, N- z. T- S' C
营业 0.13920178509021275
% W& J: _# m! r* R. |; W ^
3 o% h0 V3 J5 S使用 jieba.analyse.TFIDF(idf_path=None) 可以新建 TFIDF 实例,其中 idf_path 为 IDF 频率文件。
2 ~, Y8 L3 K& o& A& a4.2 基于 TextRank 算法的关键词提取
$ V \1 b5 U2 O" i$ tTextRank 是另一种关键词提取算法,基于大名鼎鼎的 PageRank,其原理可参见论文—— TextRank: Bringing Order into Texts 。4 j/ ~9 I: N# P( l8 L( k2 R
通过 jieba.analyse.textrank 方法可以使用基于 TextRank 算法的关键词提取,其与 'jieba.analyse.extract_tags' 有一样的参数,但前者默认过滤词性(allowPOS=('ns', 'n', 'vn', 'v'))。
8 q# }1 A* `1 A6 g8 K2 e1 v# d9 o$ r' \: G" Q( z
" g- c4 ]: @- A, ^: b$ E+ W. m4 K
, o2 j" r# x) {2 q# V' Z
- _& {: b- q0 |9 }$ w# e7 C bfor x, w in anls.textrank(s, withWeight=True):1 A. w' h/ C( }3 n
$ n6 f$ l( b3 ~ K0 U* ~
* o/ `# K* @7 h, Q* I7 w
! w1 \& P; @3 n# ^ print('%s %s' % (x, w))
- `( o9 {( @' s" l, l" C s4 ^+ I4 I
# w8 z8 Y3 x8 Z' N }4 ?; R
吉林 1.06 x: d$ j" S4 Y
欧亚 0.99668933541781729 `! X l n* v# s# u5 s: y9 @; H9 S) \
置业 0.64343603130927765 u [$ E1 T$ s) g3 \' n
实现 0.5898606692859626
a. ^9 \) ]. l. F" ?+ g# J收入 0.43677859947991454) x9 s; W7 H1 K# Y$ j" t2 Z# f( X, B
增资 0.4099900531283276) z& P7 ]$ m4 j
子公司 0.35678295947672795& W- U* j6 { ?* P/ K! W
城市 0.34971383667403655& Y" K Z$ {- q* p7 @
商业 0.34817220716026936
6 _6 S6 X' Q" K, X业务 0.3092230992619838
r# S6 N1 O1 _" K! l在建 0.30779291640330889 u5 \1 g7 K, `+ m
营业 0.3035777049319588) G# S. z# h8 Z% e# m, }
全资 0.303540981053475
1 O: k J2 D$ Q- ?. N- I综合体 0.29580869172394825, [& W$ q7 ^9 Y6 j4 _) A" C
注册资本 0.290005194640850452 `6 l( w, j& e y& t
有限公司 0.2807830798576574
4 ~0 q( S3 y+ A6 w( _零售 0.278836208612181456 U1 F* i! }! t6 y# J
百货 0.2781657628445476
a2 }6 _! {& `% P4 j开发 0.2693488779295851" j, ]) [( L- t r
经营范围 0.26427621735583162 n% v; _+ L# W; C* j( H% s8 l
- b. o$ g( k! M# L2 y1 g使用 jieba.analyse.TextRank() 可以新建自定义 TextRank 实例。: w3 J% F) u! i( _+ e, g" k/ x
4.3 自定义语料库6 e5 V) C- a- l" V/ d8 Q5 ?) Y
关键词提取所使用逆向文件频率(IDF)文本语料库和停止词(Stop Words)文本语料库可以切换成自定义语料库的路径。# l, S3 h+ ]- K) N, M0 l
1 V. X$ F7 K9 R0 [& B% a! j* t, L6 J3 ]# j& b- q2 B I5 w
- % N X% ]; I" \% G; Q
4 r! n/ s. Q# d( B# Ajieba.analyse.set_stop_words("stop_words.txt")6 e6 l) a! t) ~/ A
/ ~2 C( _! ~3 n4 p$ o# ^
- - M+ b$ ~& Z; K
1 K8 j5 e6 K8 c) I# }jieba.analyse.set_idf_path("idf.txt.big");
/ p# s4 W7 }+ Q) h( J9 F* L0 b) ^7 b. K/ c( v1 c
- / i+ x7 p3 x ~( {1 q* h3 r( X
# ]0 I5 D7 m; sfor x, w in anls.extract_tags(s, topK=20, withWeight=True):- J( e* L o& Z+ }% `2 |% J
8 S/ |7 B) q; m% b8 P+ j! }7 ^
3 ~4 i! ]/ M2 q3 n9 z- I: ?
4 r' I. _& h8 }7 [1 Y print('%s %s' % (x, w))4 l8 `+ |+ G% ]( z4 @* r( S
. k d6 \7 e, I, o( ^4 E( m; Q1 y
* I$ G. P' h' h2 j1 F. B
吉林 1.0174270215234043 q$ O! d) V2 y; G1 x
欧亚 0.7300142700289363: u9 k& H% h j K
增资 0.50871351076170219 i6 ` B& H6 G0 R7 I3 D8 |
实现 0.5087135107617021
' ~: B I0 h4 ?置业 0.4887134522112766
# X/ }- g7 p, |# p# U: h. N万元 0.3392722481859574
$ g! n/ U1 S2 r此外 0.25435675538085106% c$ a( F' Y$ D
全资 0.25435675538085106
y5 P) F7 A# U- y$ M8 ]( J有限公司 0.25435675538085106+ l) x5 q; e- k
4.3 0.25435675538085106% q3 m" A N f/ M9 u' ]6 q
注册资本 0.25435675538085106
$ `! Q6 K5 ?! b7000 0.25435675538085106
: X4 ^3 z1 z! t增加 0.25435675538085106) p) ~1 P. h( g4 e" C9 Y
主要 0.25435675538085106
1 t7 V6 @$ b! W! ^7 m房地产 0.25435675538085106
/ i* b/ ^9 A0 X业务 0.25435675538085106) A1 {( v" Q# \1 H6 w/ g
目前 0.254356755380851069 {) J# } S( K0 G( @9 q `
城市 0.25435675538085106
; k, x- s' ?% L' g0 @0 b综合体 0.25435675538085106
: Y1 @& _% [: y! H! F! R2013 0.254356755380851063 I7 ` |" j; L O2 |
9 u2 g5 b4 ?: }, I
4 i" t6 O1 ~8 a9 P1 t; p
5 词性标注
$ O0 K7 a6 r7 K0 G% I) T8 H" @jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。3 y- X3 j& Q+ c4 o% r5 B
# 标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。
& M) f, l3 R! j. d5 `& v- x6 Q& R& s6 v+ Q( K' S7 x' }
; x: I2 L" E3 @) h1 c( Q+ `: G - % W& k5 w- I+ H; l% D$ H/ v( z4 B# d, r$ F
" Z: N8 e& g; V2 Ewords = pseg.cut("他改变了中国")7 g- X+ W% s- j5 q$ P
g) z3 q, _2 D. [# R
" V( v, l5 X0 d' C- M9 q& }0 j' o8 `% T/ g! V& @' A
for word, flag in words:+ u+ m3 L1 s$ _# d( c& C# S
+ u6 {$ O" x- b7 ]& x6 [ |5 S
- . f; v" G& U" i/ r3 F4 h
( }/ c* w! s9 V- t$ P print("{0} {1}".format(word, flag))
9 f. n. j9 W; u# F
/ A( j& a; N0 Z$ V4 B5 y
2 K1 v0 D. Y& U7 ~: Q( w
他 r 改变 v 了 ul 中国 ns 6 并行分词. c! x, n5 J2 c4 v& h) R L! X
将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升。用法:$ u9 P- R1 \! y( o* Y
# 可参考 test_file.py
[1 ?/ r T+ s' n: M注意:基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows7 _0 x$ S0 H; o+ o0 s$ @% ^; b
$ G$ t- Y I5 u( x2 x V
2 U# G0 r9 ~/ F) _
7 返回词语在原文的起止位置 使用 jieba.tokenize 方法可以返回词语在原文的起止位置。 注意:输入参数只接受 unicode
" i8 C9 M5 y* |, o" l( c* r$ r8 e/ V& y# [
result = jieba.tokenize(u'上海益民食品一厂有限公司')
5 c% R$ x3 j3 V7 }% \5 M( v$ V
) E+ ^" j9 k: W6 B: Y" O
. V0 k' V8 k! u7 R3 i2 O" I
) O- _9 ~# v* Q: N0 A. qprint("【普通模式】")
: C& ~1 B9 l4 m. I! g
( k: W1 d) b+ ~- , p1 {. C8 d ?
0 j& X$ y' p% U* T
for tk in result:. h+ q; w: b1 G" B2 R1 S
& u# V% Y$ d' s) T
- . W+ J+ |: T: S3 v9 h
6 `3 F( K! w, ~8 e7 I+ R" C1 F
print("word: {0} \t\t start: {1} \t\t end: {2}".format(tk[0],tk[1],tk[2]))8 u: N3 C% v# Z1 \: ?
* M- F- A a5 E
" N9 ^6 I! t1 n; F; h1 l- `$ x& j
【普通模式】
; `! ]0 P( g6 i6 v \word: 上海 start: 0 end: 21 `" H1 c+ b4 }% U
word: 益民 start: 2 end: 4
8 K0 T% V+ A1 d2 g4 `* Bword: 食品 start: 4 end: 6
1 S+ n7 k/ W# yword: 一厂 start: 6 end: 80 ^( d. @( C0 U2 B4 ?) P
word: 有限公司 start: 8 end: 12- } e, z! D4 [: N' g2 t
3 I" I1 G# N4 B+ k6 M6 d8 {, t
1 j$ f" I& X* V& Y0 s
* R! [& ^* }3 c0 S1 j
. w/ \$ R9 _4 B, `" q# presult = jieba.tokenize(u'上海益民食品一厂有限公司', mode='search')3 P( `6 D/ S$ A( U4 z1 d* Y
* i. ?* `6 j4 f5 x- X' i3 R0 ?$ I$ T
- 1 t1 p' V T# X7 B& T$ F* f/ o
' F5 w& |# y: }" g: G( V% r( H: T
print("【搜索模式】")
7 I N; G! o6 a# w) \7 V0 @$ H6 ~2 A0 z% ]* g' f; |* o+ `
# c0 s1 L7 i" ~5 B: Y: u7 @- q
/ r/ j0 t- @6 Gfor tk in result:
1 _; M3 j( y a% G* l# ]; e
3 X" c) T3 F! e5 j# ?
1 @) n+ B( R5 R& [' k7 H, a9 l$ r$ p2 h$ d/ X
print("word: {0} \t\t start: {1} \t\t end: {2}".format(tk[0],tk[1],tk[2]))+ g# R) H; u" w# K) l( ?
* x3 C ]% Z/ {! y2 _5 g7 V' N
( ]/ i- Y& ~: h$ x: v/ ]$ i
【搜索模式】
7 b+ P% `( A2 Oword: 上海 start: 0 end: 2% c, j1 e0 x! e: k v# o7 @: u, i
word: 益民 start: 2 end: 4
" M: m( n: K5 {; `8 R% ?word: 食品 start: 4 end: 6& y; f. [- X; w3 ]6 ]7 b6 z
word: 一厂 start: 6 end: 8. x3 z" s$ H* r% k) g9 _% }
word: 有限 start: 8 end: 10
% J+ ^: a! V# _% Lword: 公司 start: 10 end: 12
' D0 N* o% h1 J7 C; a* q! @. Q2 iword: 有限公司 start: 8 end: 12 # V7 d6 i, p/ f0 E+ T
* B( i# V$ f& x
|