数学建模社区-数学中国»论坛 › 【科学软件论坛】数据分析 › python论坛 › 爬虫（六十九）简明 jieba 中文分词教程（六十）

查看: 5107|回复: 0

爬虫（六十九）简明 jieba 中文分词教程（六十）

[复制链接]

字体大小: 正常放大

杨利霞

5273 主题	82 听众	17万积分

TA的每日心情

	开心 2021-8-11 17:59

签到天数: 17 天

[LV.4]偶尔看看III

网络挑战赛参赛者

自我介绍: 本人女，毕业于内蒙古科技大学，担任文职专业，毕业专业英语。

群组: 2018美赛大象算法课程

群组: 2018美赛护航培训课程

群组: 2019年数学中国站长建

群组: 2019年数据分析师课程

群组: 2018年大象老师国赛优

电梯直达

1^#

发表于 2020-5-31 10:40 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

爬虫（六十九）简明 jieba 中文分词教程（六十）

0 引言

jieba 是目前最好的 Python 中文分词组件，它主要有以下 3 种特性：

支持 3 种分词模式：精确模式、全模式、搜索引擎模式
支持繁体分词
支持自定义词典
5 T( C: r1 |8 z& I" P

) s0 n1 k! M0 a% H) d

J$ q, f& O x7 G2 S" p8 H# 导入 jieba% W& n+ |, r6 [. w( V7 O& v
@ @9 [& c' W& [( O# m |" e- S9 N
0 L4 e, `# d7 d/ \* q p6 {1 C+ T
' r+ I& s: g) }( n5 kimport jieba
% r- b+ n$ y$ x: }9 y
* u8 \) B& ^1 [1 U; \- n0 F+ Z
( A3 O* [, H6 I* C

3 j- ~. r3 ~- m4 Mimport jieba.posseg as pseg #词性标注
0 Y0 Z$ b/ F( y9 v& ?9 u* k
0 z4 H7 x" j$ w( t( m7 C
/ @- v8 y, M- [, M- h% h( D, m( Q' V' ?! u& M
import jieba.analyse as anls #关键词提取9 x Q( D- w8 |
. Q* b; U; U( E/ H' A- W- O J2 x

! g8 K0 q9 L: M/ |. m! j% ~

1 分词& d/ a0 } E4 g: X; _1 v- S
可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词，两者所返回的结构都是一个可迭代的 generator，可使用 for 循环来获得分词后得到的每一个词语（unicode），或者直接使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list。其中：
( ~3 C6 ]* k& M5 ?/ F

jieba.cut 和 jieba.lcut 接受 3 个参数：

! m; I. X; {1 D
- 需要分词的字符串（unicode 或 UTF-8 字符串、GBK 字符串）
- cut_all 参数：是否使用全模式，默认值为 False
- HMM 参数：用来控制是否使用 HMM 模型，默认值为 True
  6 c4 \ |: ?- p( f8 S5 F' i- l7 n
jieba.cut_for_search 和 jieba.lcut_for_search 接受 2 个参数：

; x8 h: P4 T |* o$ B1 Y9 g' v
- 需要分词的字符串（unicode 或 UTF-8 字符串、GBK 字符串）
- HMM 参数：用来控制是否使用 HMM 模型，默认值为 True
  
  1 j$ S& u7 B5 {

# 尽量不要使用 GBK 字符串，可能无法预料地错误解码成 UTF-8% z' U6 w( F( W2 { r5 u
1.1 全模式和精确模式9 Q, I; L6 v( X; @/ Z# A4 C0 e
* R- f: A# D5 `+ c+ r) x1 j

- x8 V& n0 j( ~# H, F K( @
1 |5 T6 F, Y6 U0 y) N# 全模式
* _5 t6 v" t6 x- n
4 B7 T8 P Y; U
8 J7 q7 \& s" V9 p$ `5 o `
- ?0 E }2 v8 g) q& d! R, O
seg_list = jieba.cut("他来到上海交通大学", cut_all=True)! e4 ~& p$ ]: j; G# R% u7 O' ]7 S

8 `- m" j, {- J6 Y5 v, S& z
6 v. l, W. Q9 z }: q4 j" t8 a
$ t2 P/ a" N, u vprint("【全模式】：" + "/ ".join(seg_list))
" b( a7 P( E5 U3 v6 \7 j1 M4 o4 a

1 l6 h, q. R6 o+ h6 S/ B

【全模式】：他/ 来到/ 上海/ 上海交通大学/ 交通/ 大学

2 z$ @2 Q% h, G/ b- c% W: m# u7 V
# b4 ?1 m8 `& G# A- d' k) g# 精确模式
5 o4 x ?$ |5 i3 s5 [, `) K: \( n$ l! h7 ?+ w6 d! o, B- U
& G7 M, b0 h! z1 C3 k3 _
! N1 n# }6 a$ \7 H* d
seg_list = jieba.cut("他来到上海交通大学", cut_all=False); `: L7 N B, M+ ?5 I, D# I5 v1 z

. b& B9 E8 \. ?) z* e: Y2 i z
& h4 S# U% I+ p2 G# }
0 D# c6 H3 m p
print("【精确模式】：" + "/ ".join(seg_list))9 F; B+ l. P2 Q, S; U8 H% i1 p% j- s

- Q9 L0 O% Z/ [6 e7 t: O7 u) {' i# A) |# J4 M

【精确模式】：他/ 来到/ 上海交通大学

type(seg_list)

generator

5 t7 D: t4 |, J& f, d# k; S
8 @+ G- j- Y7 M' x7 L
# 返回列表0 z, d% W% ], ~, |7 c* Z" s& v& Z/ t
/ S8 ~0 V4 h6 K, [8 ]2 S
$ J( E) ~# c" z4 I* ~
# i, S/ G# K' Y6 u
seg_list = jieba.lcut("他来到上海交通大学", cut_all=True): d+ c! I) d' M( g' V
b5 n5 ]+ O j9 p& @" B2 B
0 C. b0 O s* k( W! y8 v' v1 T1 t7 g' }4 l
print("【返回列表】：{0}".format(seg_list))! n- a4 P) Z* J6 Q
7 X) @) ~/ T! |, ?* ~% @

; F1 Q- X- Y: u/ J+ u

【返回列表】：['他', '来到', '上海', '上海交通大学', '交通', '大学']

type(seg_list)

list

1.2 搜索引擎模式

+ w" `2 T. t* f% Y$ W: z! ]* G$ \: X1 E6 X' Q) m
# 搜索引擎模式
. b; b* V- [( n) A0 V6 {* w
* [& I0 _' C' o! o. a
1 ~/ Y# [5 ]: G& u

; h% h' q- ]6 o3 b! E* N, I: zseg_list = jieba.cut_for_search("他毕业于上海交通大学机电系，后来在一机部上海电器科学研究所工作")) y9 p; w, ]% H4 \
2 w) q7 D& g H3 @* k. X* H
! K, k# W1 Y L0 z: r
# ]# `# t2 f( a6 `) ]+ }' ^5 ?
print("【搜索引擎模式】：" + "/ ".join(seg_list))+ Z1 v+ I; { T" y& @( N

- h7 c) N7 o6 E4 `( v1 H: o9 e# m8 I& k9 y# a

【搜索引擎模式】：他/ 毕业/ 于/ 上海/ 交通/ 大学/ 上海交通大学/ 机电/ 系/ ，/ 后来/ 在/ 一机部/ 上海/ 电器/ 科学/ 研究/ 研究所/ 工作

8 [& Y- T" v0 M9 c4 A
9 G7 K* c& J; | e5 s
# 返回列表
+ ]! i8 _/ d1 K% y) E o! O1 n" J* v7 Q* n2 N+ b& q
/ ?) }. O9 n, N" ?; Z8 l5 e4 T
2 N) |: W% ^1 e7 j/ x9 w& l6 ^1 b
seg_list = jieba.lcut_for_search("他毕业于上海交通大学机电系，后来在一机部上海电器科学研究所工作")( v: K8 T& o$ i j% h% Z$ C
6 x2 D u2 O& A* m+ Q1 C9 t5 a# M% C
* D" W' I+ G! K7 G. z: Z0 Y3 @0 \/ d6 M7 B
print("【返回列表】：{0}".format(seg_list)) k- U! \$ O; Q# P5 J( j

% `/ a2 t- M8 R( Y# D
( O8 W3 R8 j0 @: F0 i1 {, B

【返回列表】：['他', '毕业', '于', '上海', '交通', '大学', '上海交通大学', '机电', '系', '，', '后来', '在', '一机部', '上海', '电器', '科学', '研究', '研究所', '工作']( F' T2 D" f6 x; l" V8 o9 @

$ H* D) ? P. `& C% c. l3 N9 I1.3 HMM 模型6 e& I+ t1 W- e; |+ b8 U
HMM 模型，即隐马尔可夫模型（Hidden Markov Model, HMM），是一种基于概率的统计分析模型，用来描述一个系统隐性状态的转移和隐性状态的表现概率。在 jieba 中，对于未登录到词库的词，使用了基于汉字成词能力的 HMM 模型和 Viterbi 算法，其大致原理是：
+ }3 q) ^: L4 u4 L" H# c7 S# L采用四个隐含状态，分别表示为单字成词，词组的开头，词组的中间，词组的结尾。通过标注好的分词训练集，可以得到 HMM 的各个参数，然后使用 Viterbi 算法来解释测试集，得到分词结果。6 R: s, B: P: C, x: O7 A T6 B& X
4 i0 I2 H1 z( F2 u/ V
# 代码实现可参考 HmmSeg.py4 w& K4 `9 h" m. ]
& H9 G" g' [/ \

5 Z1 T9 u' O' }8 k# K

/ |1 O3 ~$ U9 r g# 未启用 HMM; T) ?& m: p1 J8 F
7 C3 ]8 ~0 ~) G- G
2 o: }* Q- ]1 I
- ~9 P0 C4 \, m* h. lseg_list = jieba.cut("他来到了网易杭研大厦", HMM=False) #默认精确模式和启用 HMM* P5 y+ {! N2 [; \4 o7 |( E
0 A# s, h) D2 c. [" ^5 l$ E
- e  a$ n9 w5 i, r7 O0 {3 x& R9 u3 \/ i3 R2 m
print("【未启用 HMM】：" + "/ ".join(seg_list))
; D0 C- Y  b7 u) t0 P6 f' j) C2 n8 `2 H' s) B
( @. M8 a3 R- J/ ~* g  o

【未启用 HMM】：他/ 来到/ 了/ 网易/ 杭/ 研/ 大厦

% F! ?6 ?7 D, p' L9 D3 ]* L" I/ P& m1 |2 n4 B0 Q! }; i8 D: e+ \
# 识别新词* j% u# t1 e; M4 g k9 d
! F. b# ?! b& G! s6 P$ N
7 ?% f" y* }# L
2 {$ g) G0 P0 u$ W8 b) S- s
seg_list = jieba.cut("他来到了网易杭研大厦") #默认精确模式和启用 HMM, F+ }/ M( q) i2 t& m

2 [ K; a' X# d6 _
+ U* m& b" R S, D. ?; b
6 z! l p; d9 u! ~& [) fprint("【识别新词】：" + "/ ".join(seg_list))
& _. N! z8 n: W7 V" n! i8 k( F( D4 `' S$ B* C& ^

- K- L! T3 T0 [% }0 z

【识别新词】：他/ 来到/ 了/ 网易/ 杭研/ 大厦

2 繁体字分词

jieba 还支持对繁体字进行分词。

" V( J1 y! K3 x1 d" @$ g
5 N) ~- c5 p7 l. i+ l# 繁体字文本3 N2 t: O; N/ K

7 b2 Z0 @8 y b3 }, H6 E: i* s
F k- U5 m! V: ~# j$ h; I9 m' m' g: x. {" `
ft_text = """人生易老天難老歲歲重陽今又重陽戰地黃花分外香壹年壹度秋風勁不似春光勝似春光寥廓江天萬裏霜 """, M9 ~. f2 r, ~4 S1 ^) M

: R5 ^; }' ~3 U& ^. H
! P$ X7 x- {+ E: y. C7 n7 D

& ~+ u& V, v; c t% W# 全模式4 v2 I- g2 v1 ~( B: U. v g' \, G
4 p1 M3 P" ~: E. u) B* F
! s& v8 I% ^3 `4 P4 a9 k$ e

$ i1 n. J+ L, F, Cprint("【全模式】：" + "/ ".join(jieba.cut(ft_text, cut_all=True)))
; h5 ^ _0 Q' R+ x. j# ^3 B
5 G7 T: L% S9 j+ Q, R7 k6 b& d
' ?1 R) a8 o, W# M; E. I1 D5 K

【全模式】：人生/ 易/ 老天/ 難/ 老/ / / 歲/ 歲/ 重/ 陽/ / / 今/ 又/ 重/ 陽/ / / 戰/ 地/ 黃/ 花/ 分外/ 香/ / / 壹年/ 壹/ 度/ 秋/ 風/ 勁/ / / 不似/ 春光/ / / 勝/ 似/ 春光/ / / 寥廓/ 江天/ 萬/ 裏/ 霜/ // g; w* e0 j3 S8 d+ Z& G

: w/ s# [4 k& H) Q" m! P E0 b% v' I. S$ b7 y8 V
# 精确模式9 U& D7 d" M" `1 Q

" K3 ^' F& C5 l$ E8 `$ d+ }8 W
4 P3 A; b4 u& Y- D1 [" A# g: W2 G/ g
' M$ V Z' N& {$ l( d
print("【精确模式】：" + "/ ".join(jieba.cut(ft_text, cut_all=False)))
O2 Z! ~. ]: @; u" N c a4 q. e0 ]/ h% H5 @! w6 @" `
4 d" ^# c2 h8 L! i

【精确模式】：人生/ 易/ 老天/ 難老/ / 歲/ 歲/ 重陽/ / 今/ 又/ 重陽/ / 戰地/ 黃/ 花/ 分外/ 香/ / 壹年/ 壹度/ 秋風勁/ / 不/ 似/ 春光/ / 勝似/ 春光/ / 寥廓/ 江天/ 萬/ 裏/ 霜/
r" q8 h* z. A* \
1 [: n R% @& g6 R" u, |1 Y) c+ B( W- U) M

; g9 G+ U1 d. `( u: J) X9 v# P0 q0 s- p, D7 g$ o
# 搜索引擎模式
/ a4 y- r5 t3 G% F" h( I# y: i$ F% t) O) \2 W! v
) S: e' a( y  f3 R. o/ h
  b5 u/ X- M" p+ m0 i. n0 t* f
print("【搜索引擎模式】：" + "/ ".join(jieba.cut_for_search(ft_text)))( n% u$ D% f3 p" h7 y4 k
% R/ |- H, K; Z3 U6 g  Y, b0 G
7 z9 M7 {+ x8 r. y5 W( U

搜索引擎模式】：人生/ 易/ 老天/ 難老/ / 歲/ 歲/ 重陽/ / 今/ 又/ 重陽/ / 戰地/ 黃/ 花/ 分外/ 香/ / 壹年/ 壹度/ 秋風勁/ / 不/ 似/ 春光/ / 勝似/ 春光/ / 寥廓/ 江天/ 萬/ 裏/ 霜/' o" P  b1 a; k) E
. P' B& y8 R6 J* Z5 }, j. g7 ^
3 添加自定义词典+ G, {. w( ]/ ^
开发者可以指定自定义词典，以便包含 jieba 词库里没有的词，词典格式如下：
* \+ ~# c* V  C8 c% A- F- u$ P词语词频（可省略）词性（可省略）2 _/ k/ P3 V& a7 r+ x
$ P4 G) s; M: A8 k8 d/ W+ G! D# J
例如：  a4 d1 G+ i% \* K5 n5 ?' C. j
( V* \# N1 U- D2 d) K( }' @
$ F# @9 m0 f' }4 {

% x6 X8 s. A8 |' d1 u$ [) |
1 i7 p; a& `- s2 h" X创新办 3 i6 X ^0 K0 w+ B* V
- Q4 D* q M% l- P% Q
/ _4 C+ I: n; g. I! c5 F) \

& |: J# y2 |7 s2 {4 |$ Z4 t. l云计算 5
, K0 x3 Y0 z- E# \- R. [
1 a, r' Y2 J9 G) M6 H" \5 \
) p: @; W4 C! d5 F% Z5 D

3 l) F: R% Y& s+ z/ \9 F3 G凱特琳 nz1 ?8 N( j" Z. b* s
! w( E: r, {6 z2 W; d( ?
- c# D C; c1 ]6 ~4 {$ b! C: ]" d

# 虽然 jieba 有新词识别能力，但自行添加新词可以保证更高的正确率。
4 \. _% B1 Y2 F0 M0 d3.1 载入词典
% ? R* g! K! ]' r* }- O* ^% X使用 jieba.load_userdict(file_name) 即可载入词典。% E+ a4 F2 T- E* }% I# f
# file_name 为文件类对象或自定义词典的路径
5 N, c6 D9 E# ~
$ u$ T5 A$ ^2 o( z0 a+ B+ J, H) G! U3 y8 e0 _

2 f' B* B) L4 h4 L) W1 w& K8 v. [" a3 Y3 z# o9 }" s9 ?0 w
# 示例文本0 @0 G4 v. C& r+ E* x- L

: w, C: _( `, O6 z. v5 i& Q
9 X% ^: Q) {+ p" B
; @9 e: J" Y" r" Lsample_text = "周大福是创新办主任也是云计算方面的专家"
& J, g' l8 y; S7 w& ~9 [* W
* _! [2 e/ M5 ^, [: L$ S/ B& y5 q
( B4 v$ n8 t9 p4 g, _- s6 x" v" D8 ?

. w) U, A0 ~2 z6 u3 F t# f. {$ @/ o6 `- Z" o0 F8 c2 V n
; S4 n k5 v/ a; z; W- B% d! S$ [- a+ E, z" ]' a2 E
# 未加载词典
/ N0 r- i4 b) i# w f _
& m9 L1 O( J- R8 N1 ]0 ^% }8 x' _
4 r% ^0 K- K. X, X2 H
/ y7 G( P, z2 i2 t( Gprint("【未加载词典】：" + '/ '.join(jieba.cut(sample_text)))
8 b+ w5 w$ q4 }- C v4 [ b5 d5 H3 L p* r

- I- i8 x. U0 b2 r+ a, v2 [

【未加载词典】：周大福/ 是/ 创新/ 办/ 主任/ 也/ 是/ 云/ 计算/ 方面/ 的/ 专家

【加载词典后】：周大福/ 是/ 创新办/ 主任/ 也/ 是/ 云计算/ 方面/ 的/ 专家5 @8 q3 d" L/ m, W: V. a. B2 Y
]8 u$ D& N% _! {5 {( v
3.2 调整词典5 r# d6 G# j) ]7 X+ M+ b( b
使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。0 L! N4 ?* ~' C+ ]) a1 u

8 M" k8 D! Y+ T$ G3 q0 K9 W3 ], k; y/ y. E- @$ @, U$ H

8 R8 R- s0 c/ h% i# `+ P/ B

+ O1 ]/ h0 G$ e6 O3 D" ^6 bjieba.add_word('石墨烯') #增加自定义词语# A; r! ~) {3 q6 C

4 M3 S. J* |( _9 H" g4 B& p& y
- d0 i! T1 y* b4 y$ `

+ n) ?: A1 L3 ]( yjieba.add_word('凱特琳', freq=42, tag='nz') #设置词频和词性
8 x( x7 O" `$ J* d
' O( v2 L: _. o& Y' q6 g$ t
" l3 f% Q M, \1 }6 V# I/ Z/ C- H: a& [1 u( r2 j% N5 ~
jieba.del_word('自定义词') #删除自定义词语% D# E: M( p: w$ o, d

( k$ F' g$ @1 r6 }3 W( Q N
& \% A, _* N7 N# O! ], D+ v6 e

使用suggest_freq(segment, tune=True)可调节单个词语的词频，使其能（或不能）被分出来

5 B9 ^4 _% }( F

' ?9 w! l( D! O# 调节词频前
9 k; ?+ f4 H& U+ T
: D& f) }: r# |: K
) e0 V. B. R& I, \) y- z& l' I% `* F% }7 A% U- T
print("【调节词频前】：" + '/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))" ^; M1 e4 s& ^5 Y8 R' o
( ~1 P* B* q; D" x; k+ n) r( H

( \1 V" e. c) P# K( b4 O' J

【调节词频前】：如果/放到/post/中将/出错/。

+ B* s5 g1 |* s6 k6 [
7 R; N1 c1 v/ L5 i# 调节词频, P7 Q7 X% @$ [3 r0 M
% Y+ r; N5 ?6 U" q z9 H' @
1 z% K1 W/ C2 x9 Z! h& C) h

( Q% {2 G3 j+ o8 G" t! rjieba.suggest_freq(('中', '将'), True)' Q% C* A+ x5 F
7 m; }. S. j+ b1 x. w* ]

. d/ U7 x! F; V, j

494

- t7 `/ M. x1 V+ Y4 b7 g
; }, z' E3 ~ x! s; u. l+ p# 调节词频后. ]. B. B2 k0 E5 }" T
' x' V E! S! ?4 g3 h! s
2 k4 D% \9 K2 Z" U+ O

! [8 B/ N' v5 Zprint("【调节词频后】：" + '/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))9 y8 t& v" v1 H1 @

+ d9 Y$ k! W% N) Y% v5 _& v% N) E4 Q9 H$ u0 B0 J7 D

【调节词频后】：如果/放到/post/中/将/出错/。
) g" R1 ], T- q C% p. r" }9 M+ S8 g% b: W/ S: w
4 关键词提取( `% x1 j* _. B+ @) A9 \/ P. J
jieba 提供了两种关键词提取方法，分别基于 TF-IDF 算法和 TextRank 算法。
) v) s9 h! z& P# f4.1 基于 TF-IDF 算法的关键词提取& W! g% m6 k( |
TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)是一种统计方法，用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度，其原理可概括为：
9 V- y% x% e$ W. v/ M- t一个词语在一篇文章中出现次数越多，同时在所有文档中出现次数越少，越能够代表该文章- d) q2 M8 O% |* h* e2 I" r

( q- N( T' v( x* w$ C8 B计算公式：TF-IDF = TF * IDF，其中：3 w5 V: W4 P/ K8 V

TF(term frequency, TF)：词频，某一个给定的词语在该文件中出现的次数，计算公式：; n+ p; ~6 L! I8 ?( h, J8 R

4 I% e( j& X6 W
9 D0 r. d: T$ b( A+ M( S
$ @# N/ G6 B( U! A

IDF(inverse document frequency, IDF)：逆文件频率，如果包含词条的文件越少，则说明词条具有很好的类别区分能力，计算公式：/ V& y$ @ |/ e

' }7 f0 k& G0 e3 B9 q
/ ^- ~( R: ?8 R% p3 |8 Y9 e
- j$ v' A; q2 l( h1 @8 q

通过 jieba.analyse.extract_tags 方法可以基于 TF-IDF 算法进行关键词提取，该方法共有 4 个参数：
2 K" O; Q0 }. {) _

sentence：为待提取的文本
topK：为返回几个 TF/IDF 权重最大的关键词，默认值为 20
withWeight：是否一并返回关键词权重值，默认值为 False
allowPOS：仅包括指定词性的词，默认值为空
1 {' M, x! G) P+ ]! I" J5 K

9 z5 m- | h- A$ u
% D0 h$ H4 H3 p9 G
s = "此外，公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元，增资后，吉林欧亚置业注册资本由7000万元增加到5亿元。吉林欧亚置业主要经营范围为房地产开发及百货零售等业务。目前在建吉林欧亚城市商业综合体项目。2013年，实现营业收入0万元，实现净利润-139.13万元。"
& e; r5 ~$ e: ?" ? Z, m" Y/ ^8 w- o+ [% v/ R1 Q! B
3 ^2 Q7 g6 a- L! }
2 X; s6 F4 O: q3 K" ~) b
for x, w in anls.extract_tags(s, topK=20, withWeight=True):
/ L, U$ u R3 n3 J" @9 }) x$ u& i0 n) W
" \/ j+ P3 K. ]0 e) G- L( L0 _  w% P* U$ |! x; Q
print('%s %s' % (x, w))
) }  W2 {; t0 u4 N, q
: ?# M8 h6 o) n- x% w
* h5 r0 e( o. y8 X  P( s

欧亚 0.7300142700289363/ r0 y  V2 g7 v2 P( \
吉林 0.6590381843736176 J2 X) @3 [( a- Y
置业 0.4887134522112766: ~4 V/ ~/ D) [1 u: E. U1 f
万元 0.3392722481859574
9 i* ^/ O' B/ c% S增资 0.33582401985234045
: t: C# A) Q# V8 \1 G4.3 0.25435675538085106) f# k: z) V4 ]; {* T+ b+ @! }7 @
7000 0.25435675538085106$ D1 D3 ]5 B, t" ~' d& s& C
2013 0.25435675538085106
- p4 }0 X) q- u7 V139.13 0.25435675538085106/ |2 O- V) u$ v; R' Q- d& X; Q; H
实现 0.19900979900382978# E' C; }4 T0 K* c0 [
综合体 0.19480309624702127
! d2 D8 W* Q+ [3 |( k& \  \, O  n经营范围 0.19389757253595744
9 \0 X: j, `5 M4 s- y* Y8 f亿元 0.1914421623587234
& F3 r* r* Y- y在建 0.17541884768425534
4 L$ E1 M7 P: T6 x* j全资 0.17180164988510638
5 D: X6 p& S6 s" {2 s/ t6 t1 f注册资本 0.1712441526
1 b5 o- G0 N  r: x百货 0.16734460041382979) S2 q2 I  F3 k3 |$ |$ J
零售 0.1475057117057447
3 B. Z: I! q9 v9 L+ a: r7 X! {子公司 0.14596045237787234
' q0 K3 k9 H) |营业 0.13920178509021275' h; L( G5 Z% t1 H; C6 s2 U& O7 |9 `

, j& C- c7 H3 K7 K, [5 s使用 jieba.analyse.TFIDF(idf_path=None) 可以新建 TFIDF 实例，其中 idf_path 为 IDF 频率文件。
1 K; X7 A! o: x$ G" S4.2 基于 TextRank 算法的关键词提取! w) F5 }4 R  c2 h5 B: J9 x! u7 x
TextRank 是另一种关键词提取算法，基于大名鼎鼎的 PageRank，其原理可参见论文—— TextRank: Bringing Order into Texts 。0 e7 _# M% I* l- O
通过 jieba.analyse.textrank 方法可以使用基于 TextRank 算法的关键词提取，其与 'jieba.analyse.extract_tags' 有一样的参数，但前者默认过滤词性（allowPOS=('ns', 'n', 'vn', 'v')）。
+ b9 v) w* F6 b; h: ^! \5 A
3 \0 M1 {! t+ P3 w) c: V5 |/ d, o8 X

/ R' _$ Q) M& R/ _. L5 E) e' N

$ Z" _( g& E9 Lfor x, w in anls.textrank(s, withWeight=True):
- ^( ~* E* L1 s# Y) [* O; P- o
$ U( C( S' B, Q4 p
* X" b1 V- g* A, o" L( P print('%s %s' % (x, w))
% r' u0 F K" v0 l' S; |# M# P- h l+ {; Y' w8 s
2 O& ]2 Q w- D# D% ~7 O3 V

吉林 1.0+ x; c0 r. y: \$ W$ k* `
欧亚 0.9966893354178172$ w; R9 M3 b$ H; v' f. n: d4 l
置业 0.64343603130927766 C5 ~6 Z+ l! c  I1 t+ G8 j6 c1 Z
实现 0.5898606692859626
& [* N6 ?& U' `+ W+ ]收入 0.43677859947991454! m2 ^& }$ E7 S3 X
增资 0.4099900531283276. \& e) M- K( R8 ~5 q2 [4 G% d8 Z
子公司 0.35678295947672795
1 i2 F' T: H% `/ W+ F) ]城市 0.34971383667403655
: r$ e' }5 j% i" ?  E! L5 B商业 0.34817220716026936
+ _: k7 ?! l9 L1 ]' G5 D业务 0.3092230992619838
& s& E& k9 S" i% N在建 0.3077929164033088. g) j; `! H. Q
营业 0.30357770493195887 q5 y3 a9 N- r0 I( B
全资 0.303540981053475
9 H5 N- i0 s5 {, e0 P+ L综合体 0.29580869172394825& [* K' l0 l7 \) i
注册资本 0.29000519464085045
  R) w& S2 Q5 t3 C% {. I有限公司 0.2807830798576574
1 S" D7 Q4 ^* q, |零售 0.278836208612181458 n' ?8 d3 |/ p6 [" P- p- l7 b
百货 0.2781657628445476% G: e! r: D+ }4 S8 H  ]
开发 0.2693488779295851
/ ?% Q0 Z/ M8 ?! a% H经营范围 0.2642762173558316
/ x+ P4 U9 }, h7 s( u# ]" H4 p9 T% ?, Y8 K" B9 E! d% {8 V
使用 jieba.analyse.TextRank() 可以新建自定义 TextRank 实例。9 E" N* m6 D( X
4.3 自定义语料库
" h/ e8 f$ N1 Q7 Y关键词提取所使用逆向文件频率（IDF）文本语料库和停止词（Stop Words）文本语料库可以切换成自定义语料库的路径。
" K" s* K' N% Q% b
% q7 i3 @; A, H3 s& y) X5 _
* [- y4 ]0 L, l* b

+ c3 S8 _ ~* C

9 O, |3 P1 ^+ j t. R) o" [8 Vjieba.analyse.set_stop_words("stop_words.txt")
# t4 b- P. S/ o, v8 D! }( r* S
8 X. h( _+ N* Z* ?4 S
. A: }  u3 n9 x; k4 J

' K3 j2 Y- d+ i  r/ ]5 Yjieba.analyse.set_idf_path("idf.txt.big");& i) Q+ g& J& o% s

  h+ Y/ a* w( R4 H
, G3 A; g# i$ _9 w# D( n

" h1 N! _% x4 [. M; ^2 q. Hfor x, w in anls.extract_tags(s, topK=20, withWeight=True):( w- o3 [: f# U/ T) a; ?" [

9 w% u# P) ]0 ?4 H
4 V( b+ e, t# Z
* i1 t3 @# e8 C5 _ @
print('%s %s' % (x, w))
8 Y6 Y, l. { a1 y: s
" @" y6 |( D: l/ ?( M
9 O6 Y, }+ ?8 @4 n$ x. m8 d

吉林 1.0174270215234043
6 E6 ]9 i3 j) E; n" f1 I0 L% l' |欧亚 0.73001427002893631 G: J; J" W% X. Z) t6 V! H
增资 0.5087135107617021; n" G; {% A- \- c# t4 V' e: @
实现 0.50871351076170212 U% o$ {/ j1 @3 V; S* n
置业 0.4887134522112766; c3 u' T/ z+ n5 Y1 U; g
万元 0.3392722481859574+ l6 {2 \- Q# s  Q
此外 0.254356755380851060 g( K2 T8 f$ b
全资 0.25435675538085106) ]; v, u4 W0 e+ C
有限公司 0.25435675538085106
$ d) F& d+ o) S+ B- H4.3 0.25435675538085106# T7 ~% {! {! P; n
注册资本 0.25435675538085106
: M$ s( T. H# f9 h; g7000 0.25435675538085106
/ C$ O4 Q1 C/ @6 y增加 0.254356755380851068 `, `. J7 J- ], K( @& T1 U: \
主要 0.25435675538085106
2 W6 Z+ {( L6 U( B7 g房地产 0.25435675538085106
0 M- a, T* K: w/ |- }5 u4 q业务 0.25435675538085106- D0 b; P- T' l  \1 o# ]/ O! w
目前 0.25435675538085106" n/ s1 V1 B! I4 U  s+ ~/ O
城市 0.254356755380851061 T3 Q0 s9 {" {+ b. x- |
综合体 0.25435675538085106
" v4 k- I; O# w7 }; W2013 0.254356755380851065 R$ _8 [. g" k0 ~4 h/ m# e

: l- @' x$ m: Q5 b; D( Z4 t. ^7 {$ ~1 o
5 词性标注3 {& B3 |+ Q  q( p2 x. Y0 {
jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器，tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。# S9 X& P' u# D  }. q6 v7 F. t* h
# 标注句子分词后每个词的词性，采用和 ictclas 兼容的标记法。
6 j$ p; R6 h! M4 p% \/ `$ _7 R* x8 @0 y& o3 i% c1 o4 S# q' a; e5 W; ~
& n  t$ L% J& S4 J) o; L$ _

" T4 Q2 ]3 }: X9 J( Z0 R, V
" t" D+ X. S( d( ?2 c
words = pseg.cut("他改变了中国")% `' t: J! d- E1 {5 f; ]9 q

* S! O6 t0 N9 L6 W- b& ?
1 d, g( q7 C$ t" Y

8 b5 B1 F- ^3 p) @8 X4 s$ C6 Kfor word, flag in words:
7 ?/ w* b3 {- }5 J8 u& a4 `, z: R& C _( K1 D. i. C* ?
- V Q! I' u X8 M
$ |' m* \: g1 `5 U3 B
print("{0} {1}".format(word, flag))
5 m& X1 l' C1 `" \7 K
1 T7 I% [/ }9 X$ J/ j" t6 {* [, X, Q% {* j

他 r

改变 v

了 ul

中国 ns

6 并行分词/ e9 p2 @' Z+ }* X5 Y
将目标文本按行分隔后，把各行文本分配到多个 Python 进程并行分词，然后归并结果，从而获得分词速度的可观提升。用法：0 v; \4 h f2 ?$ F3 t: F

jieba.enable_parallel(4)：开启并行分词模式，参数为并行进程数
jieba.disable_parallel() ：关闭并行分词模式

# u0 N7 O* X/ G& i

# 可参考 test_file.py
@+ U# F' L @$ d+ o2 |; c2 I注意：基于 python 自带的 multiprocessing 模块，目前暂不支持 Windows
3 c/ s2 u& w* o2 l
) w/ T" M0 d$ K L4 R. M8 Y3 L. L7 o/ S! S6 Q
7 返回词语在原文的起止位置

使用 jieba.tokenize 方法可以返回词语在原文的起止位置。

注意：输入参数只接受 unicode

* r+ p; d) j/ {5 K# x1 h6 {, ^" F
% \; i$ o8 _4 y. \- z! `
result = jieba.tokenize(u'上海益民食品一厂有限公司')
; l. d+ V- s) v/ Z0 g9 W3 n h: F5 B* z' @1 p' m8 l' h
3 J5 s8 F0 Q/ f

& P9 T$ U) U/ C( l3 c: m5 Vprint("【普通模式】")% x% m% U# |4 `, X

2 h. q# b( T$ J4 M9 {8 `4 }& p
& T( n2 i: Z0 f9 m7 U5 R: K
$ _' x x6 E' M* O1 b/ y! Lfor tk in result:
5 I3 {; \+ y0 q! e# p# |7 `, W& N" h
! m! z9 D' D3 z0 K' [

. O& n$ k) y# A+ b }4 R1 m% e6 R print("word: {0} \t\t start: {1} \t\t end: {2}".format(tk[0],tk[1],tk[2]))2 [4 A( U: o* k
* u, e0 Z; ?4 I1 H' [3 b# n; [

v; Q- i) C' n) k3 n3 C

【普通模式】0 c& V# v" R" m' F1 |
word: 上海 start: 0 end: 2
: u" y1 _" o1 @word: 益民 start: 2 end: 4
7 e6 ~6 J- y* Z; @; Q9 x# F$ [word: 食品 start: 4 end: 69 e* I( m8 f! y7 \& X
word: 一厂 start: 6 end: 8' z1 S# \( c0 ]; K$ T) c9 h
word: 有限公司 start: 8 end: 12
/ U9 A+ U: E! P8 n, @$ q2 w9 {$ Q3 {1 N
* L8 y' c! F; L1 e% g1 e! t

3 Y+ W. l- d7 U2 g/ ~% n6 F( s: n$ `, D: z
result = jieba.tokenize(u'上海益民食品一厂有限公司', mode='search')
) Q7 G. l" s8 ]; _( J& [
8 I0 k4 h4 a6 T }9 g% c* f' r0 |
# k/ _, D" v# o5 b2 M0 s# T! @; u! o. d1 H4 d
print("【搜索模式】")6 i7 A0 ^6 a- D. M5 P, D, Y \) M

6 @3 W- |) @% v. U( S5 h9 i9 \
) k m8 @ y1 b' E/ a, P) F2 z* i( k# k9 B4 ~
for tk in result:9 f9 Z" r6 O1 u7 c0 w8 P" F

6 \0 w0 V+ U w1 j1 P, D5 Z/ X
2 h3 D8 w& k) q9 a- Q" D

) U, f' j) v+ D& D print("word: {0} \t\t start: {1} \t\t end: {2}".format(tk[0],tk[1],tk[2]))& [: s# Z# V: r9 t# E( ]

8 @2 _% Z% `! N9 X1 p, ^' _4 p, Z& `) J" u4 z

【搜索模式】
6 g" ?! W7 |2 |6 uword: 上海 start: 0 end: 2" k' }! R) t! u- `! J# Y
word: 益民 start: 2 end: 4
4 \# ~2 l3 Q3 B/ B4 w' s$ vword: 食品 start: 4 end: 6
! u8 t3 u# S1 _4 ~1 zword: 一厂 start: 6 end: 8
* X3 _6 w: k' O# N1 }" t3 Rword: 有限 start: 8 end: 10
% }1 n8 ]/ E$ N' ~# |9 G. p, Wword: 公司 start: 10 end: 127 h9 p$ U( `" h f) h, V/ n4 F
word: 有限公司 start: 8 end: 12