数学建模社区-数学中国

标题: 爬虫(六十九)简明 jieba 中文分词教程(六十) [打印本页]

作者: 杨利霞    时间: 2020-5-31 10:40
标题: 爬虫(六十九)简明 jieba 中文分词教程(六十)
爬虫(六十九)简明 jieba 中文分词教程(六十)  w/ m2 H% j5 R7 C$ S  j$ ^

" c# q1 ]. H  h8 ~; H0 引言

jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性:

1 分词% r& z, o( C, ]! T( k5 z1 X1 Z
可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词,两者所返回的结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语(unicode),或者直接使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list。其中:. C* O$ H: h$ Q

# 尽量不要使用 GBK 字符串,可能无法预料地错误解码成 UTF-8
/ Q; I/ K& _1 C  j2 G. Y$ F; z1.1 全模式和精确模式1 c; Q+ z/ h+ v
% T8 n4 ~6 c, s* t6 w

【全模式】:他/ 来到/ 上海/ 上海交通大学/ 交通/ 大学

【精确模式】:他/ 来到/ 上海交通大学

type(seg_list)

generator

【返回列表】:['他', '来到', '上海', '上海交通大学', '交通', '大学']

type(seg_list)

list

1.2 搜索引擎模式

【搜索引擎模式】:他/ 毕业/ 于/ 上海/ 交通/ 大学/ 上海交通大学/ 机电/ 系/ ,/ 后来/ 在/ 一机部/ 上海/ 电器/ 科学/ 研究/ 研究所/ 工作

【返回列表】:['他', '毕业', '于', '上海', '交通', '大学', '上海交通大学', '机电', '系', ',', '后来', '在', '一机部', '上海', '电器', '科学', '研究', '研究所', '工作']
9 d! `) |8 S; ?4 b. n6 M3 l9 y1 N- h. b2 ]/ z5 L
1.3 HMM 模型, w- \7 `2 c, R& S
HMM 模型,即隐马尔可夫模型(Hidden Markov Model, HMM),是一种基于概率的统计分析模型,用来描述一个系统隐性状态的转移和隐性状态的表现概率。在 jieba 中,对于未登录到词库的词,使用了基于汉字成词能力的 HMM 模型和 Viterbi 算法,其大致原理是:' @: [& f( Q- U$ T0 t/ T4 h% ^
采用四个隐含状态,分别表示为单字成词,词组的开头,词组的中间,词组的结尾。通过标注好的分词训练集,可以得到 HMM 的各个参数,然后使用 Viterbi 算法来解释测试集,得到分词结果。
' T' }5 E2 Z) C( u1 D# F+ V+ y/ F2 Q' Z
# 代码实现可参考 HmmSeg.py% f: j  D3 w. |% o6 X! Q

3 z- A' o; ^, g

【未启用 HMM】:他/ 来到/ 了/ 网易/ 杭/ 研/ 大厦

【识别新词】:他/ 来到/ 了/ 网易/ 杭研/ 大厦

2 繁体字分词

jieba 还支持对繁体字进行分词。

【全模式】:人生/ 易/ 老天/ 難/ 老/ / / 歲/ 歲/ 重/ 陽/ / / 今/ 又/ 重/ 陽/ / / 戰/ 地/ 黃/ 花/ 分外/ 香/ / / 壹年/ 壹/ 度/ 秋/ 風/ 勁/ / / 不似/ 春光/ / / 勝/ 似/ 春光/ / / 寥廓/ 江天/ 萬/ 裏/ 霜/ /
/ J. V! j) ]% X, O+ C) V

【精确模式】:人生/ 易/ 老天/ 難老/ / 歲/ 歲/ 重陽/ / 今/ 又/ 重陽/ / 戰地/ 黃/ 花/ 分外/ 香/ / 壹年/ 壹度/ 秋風勁/ / 不/ 似/ 春光/ / 勝似/ 春光/ / 寥廓/ 江天/ 萬/ 裏/ 霜/( e7 p( d$ z. m3 @
7 A0 P: C0 [4 e! s! x# j0 h
1 `% o3 p( B, R" t7 v( J- y; B* E$ q

搜索引擎模式】:人生/ 易/ 老天/ 難老/ / 歲/ 歲/ 重陽/ / 今/ 又/ 重陽/ / 戰地/ 黃/ 花/ 分外/ 香/ / 壹年/ 壹度/ 秋風勁/ / 不/ 似/ 春光/ / 勝似/ 春光/ / 寥廓/ 江天/ 萬/ 裏/ 霜/
  ?! W* ~. D* J9 n% q" M! ^5 F" u. u6 V: b- s. c% _0 Y
3 添加自定义词典; f, c5 h8 h9 t  R4 |, p/ ^! u
开发者可以指定自定义词典,以便包含 jieba 词库里没有的词,词典格式如下:! v# L4 o/ z# T- F
词语 词频(可省略) 词性(可省略)8 Q% _) e+ Y' ~5 k
  J5 `; l$ p6 B. J* i5 a/ f
例如:
4 e" I5 j2 h9 E  S, y! M2 S5 D( `# t' L

* R/ L& E2 v7 l( H% b3 }

# 虽然 jieba 有新词识别能力,但自行添加新词可以保证更高的正确率。# k# d# M; I4 N+ E% u
3.1 载入词典
6 l4 `0 [5 \4 L% S0 Y) d( u4 a% ^2 i使用 jieba.load_userdict(file_name) 即可载入词典。
: ^5 I8 P- X: P1 U# file_name 为文件类对象或自定义词典的路径' n' w  E; Y( q* W, S% n$ A0 {

% n% B3 ]7 Q( H5 k* i8 |) l' f( m4 M$ e; Q4 g

【未加载词典】:周大福/ 是/ 创新/ 办/ 主任/ 也/ 是/ 云/ 计算/ 方面/ 的/ 专家

【加载词典后】:周大福/ 是/ 创新办/ 主任/ 也/ 是/ 云计算/ 方面/ 的/ 专家
2 |: w! y  C; |3 N) i8 z# i( d6 j! P% g1 s8 y/ r5 @$ S
3.2 调整词典
- z6 L  q0 v6 ]( C5 D6 R8 D' L* I! M使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。! }- M0 T# v  Y; B

* s# T; A0 F6 E# N3 G! n+ Y5 d" w! z7 i

使用suggest_freq(segment, tune=True)可调节单个词语的词频,使其能(或不能)被分出来

【调节词频前】:如果/放到/post/中将/出错/。

494

【调节词频后】:如果/放到/post/中/将/出错/。+ g0 K; m/ A, d( p
, x! V1 M6 x+ ?0 R& Q5 o+ x( O+ h
4 关键词提取
. N5 P, h7 L& Y. z7 Rjieba 提供了两种关键词提取方法,分别基于 TF-IDF 算法和 TextRank 算法。
' _: A! M6 \5 \) V4 P; W4.1 基于 TF-IDF 算法的关键词提取) O: s4 j2 I' _+ D
TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度,其原理可概括为:
( H: g5 A" \7 d1 r* f3 X$ `- T一个词语在一篇文章中出现次数越多,同时在所有文档中出现次数越少,越能够代表该文章2 i# a4 A( b- u" q
/ H: ~' E7 w6 j+ s
计算公式:TF-IDF = TF * IDF,其中:9 f4 W& c& ?  K" }; U2 e

通过 jieba.analyse.extract_tags 方法可以基于 TF-IDF 算法进行关键词提取,该方法共有 4 个参数:
3 a+ v# p: x5 c/ Q& k1 B  P

欧亚 0.7300142700289363
+ y! Z9 L% a* M, `吉林 0.659038184373617/ e  D( T) @# V' K5 Q; ]8 M! t" D9 G
置业 0.4887134522112766
* @& W7 f- l/ ~+ j4 Q万元 0.33927224818595749 _2 _* @! f- S4 f# I9 c6 x" W
增资 0.33582401985234045
% R4 S2 K% c' V% {4.3 0.25435675538085106
" @% @* }4 M9 a7000 0.25435675538085106( M2 x, A3 ?# e/ U8 b6 F
2013 0.254356755380851060 N: n8 i% c0 C$ O+ d$ h, v
139.13 0.254356755380851061 d0 B3 p5 \8 O, g  X
实现 0.19900979900382978
- ]- l# u. P' ?% i& e- d6 W8 q综合体 0.194803096247021277 D4 _& ]% v  X! _
经营范围 0.19389757253595744& c! k3 x4 D2 @
亿元 0.1914421623587234
% v$ N- o! j3 X% |6 `在建 0.17541884768425534
  Q# U, ?7 U" X4 O) U- l+ ^全资 0.17180164988510638, G. x! ~2 @4 u; Y% A7 E0 V
注册资本 0.1712441526# e7 @+ E) S" z3 P/ U
百货 0.167344600413829797 @' O) r" p: j9 H( i  H$ \
零售 0.1475057117057447& }( `# c, J- d. A
子公司 0.145960452377872341 H. X; ]8 `3 b4 q2 Y1 k
营业 0.139201785090212752 [. [: i1 y' _" G, s2 ~/ n

6 g' w9 d& w2 ?! Y/ f% k" T8 i使用 jieba.analyse.TFIDF(idf_path=None) 可以新建 TFIDF 实例,其中 idf_path 为 IDF 频率文件。
0 X5 @" [0 \+ \: I' V5 L3 {/ p& V4.2 基于 TextRank 算法的关键词提取
0 [4 [+ R% s9 M$ z# T9 M* r4 y8 ETextRank 是另一种关键词提取算法,基于大名鼎鼎的 PageRank,其原理可参见论文—— TextRank: Bringing Order into Texts 。3 T: Y2 o# z( e
通过 jieba.analyse.textrank 方法可以使用基于 TextRank 算法的关键词提取,其与 'jieba.analyse.extract_tags' 有一样的参数,但前者默认过滤词性(allowPOS=('ns', 'n', 'vn', 'v'))。+ B6 k& ~# M! \+ D: M4 H, F9 F% K

& X# C1 g' {' x8 ?  O1 c. E% v. e$ y- d- D8 \

吉林 1.0
: w5 v* ~8 ~" h( O4 H欧亚 0.9966893354178172
) ]- O7 d# W, F置业 0.6434360313092776+ i& D: W5 ~# H$ d6 N. x1 M
实现 0.58986066928596262 |# R. d& ]) V
收入 0.43677859947991454
) c: a% \) z) B2 B增资 0.4099900531283276
) r& j. ]4 \" l4 T7 l3 n6 A7 n0 w子公司 0.35678295947672795
9 H& ?  `4 a/ S* s  `城市 0.34971383667403655
8 }# d( @' \$ n+ W! H3 g+ v商业 0.34817220716026936
0 {9 `0 q8 |- m9 R3 `6 L7 N业务 0.3092230992619838
% C( `* q4 D& j! ?在建 0.3077929164033088
7 p+ E( y  E% r& h7 [: `营业 0.3035777049319588, {; v! U5 g- N& E, L( J
全资 0.3035409810534757 U+ e# N% T; I$ \3 `& P
综合体 0.29580869172394825! ^4 P( I: H  y
注册资本 0.29000519464085045
% D5 ^! s3 _$ ~; c- L' g# G有限公司 0.2807830798576574* \4 d0 \* E6 g2 v" H& [
零售 0.27883620861218145
0 `" a  N7 t/ k, @) x$ m8 c  p$ R. H百货 0.2781657628445476
1 L/ c. a+ A* a/ z开发 0.2693488779295851
) t2 _; r2 W) E. {经营范围 0.2642762173558316. n) M- N  Q  _  |6 K4 h

+ B8 O* ~  ~, E' Q4 W使用 jieba.analyse.TextRank() 可以新建自定义 TextRank 实例。
2 I2 r3 p; m1 c; y2 Q4.3 自定义语料库0 X. U# v1 V% `( Q. i8 G$ ^
关键词提取所使用逆向文件频率(IDF)文本语料库和停止词(Stop Words)文本语料库可以切换成自定义语料库的路径。* ?% j8 H; m$ {4 x! ]( w* D; o$ H
/ p0 a2 D3 k" @* ?- @+ c) d# v% W# g
  ?# E  `! \4 X' o

吉林 1.0174270215234043. J0 l* W- Z1 {; t- _8 |1 E  y
欧亚 0.73001427002893633 c) k. w" N; F# q& i  y: }
增资 0.5087135107617021
" o+ F. `6 t5 [8 g1 j1 W. R. I实现 0.5087135107617021; U: x. v# f! |6 s+ I: C7 a
置业 0.4887134522112766
& v9 L% i8 ?4 d4 u万元 0.3392722481859574
/ g- h& p" f$ g$ T此外 0.25435675538085106% h1 t+ `1 e& J$ v$ x, I
全资 0.25435675538085106
6 f2 x- n2 J4 F! H) p. Q* W# R有限公司 0.25435675538085106
1 x7 L" D  h1 S) L2 P" j4.3 0.254356755380851062 `  U# Y: h# f* M, I
注册资本 0.25435675538085106
! P, f, f$ g0 G5 o) I9 ?, R7000 0.25435675538085106
  {* m3 @0 H7 t/ p, l1 p增加 0.25435675538085106  |$ V" `! {' r0 ^
主要 0.25435675538085106% [$ v! ?0 L: S
房地产 0.25435675538085106
- Q+ M  j$ E: Q& O# R  c业务 0.25435675538085106
7 s" g% F. g$ l/ e0 [' M目前 0.25435675538085106
% K1 Q2 K$ Y$ j1 K5 ?! i城市 0.25435675538085106
/ Y# y/ l1 }% ^; F/ X综合体 0.25435675538085106
% o. x! j' n6 O% l4 s3 _! D: ~0 M0 E2013 0.25435675538085106
3 d. k! Z5 l1 L7 `$ d0 k2 g( w% l. b3 q/ P

( p/ H& Y1 C5 t( E4 @$ T; g% T' i5 词性标注
! e. s2 i5 R2 }2 K4 K: p( G1 Y5 ]% qjieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。, h: K* S. f% l% N% e
# 标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。
# i- X" {1 O( C+ \# N1 R) _$ S- w+ O5 ~

$ [+ j4 v) H& O, a! Y/ w

他 r

改变 v

了 ul

中国 ns

6 并行分词
& Q) T- e6 K9 _! S4 H将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升。用法:: _( K9 f" v6 c5 H. v8 O; a

# 可参考 test_file.py0 v: {( q* x& o! |
注意:基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows
9 [7 @4 A# s8 R
* s! ^2 k9 O, D7 O% x% U( o, W: V9 c, v' i9 ~
7 返回词语在原文的起止位置

使用 jieba.tokenize 方法可以返回词语在原文的起止位置。

注意:输入参数只接受 unicode

【普通模式】( X# K, H9 x0 a
word: 上海 start: 0 end: 2
! `% B9 V+ R- o$ f6 wword: 益民 start: 2 end: 4
* H+ d6 e! E; T8 b$ T: ^1 `word: 食品 start: 4 end: 6
8 {, @$ g% D: w8 Z/ q  V7 H* t" Qword: 一厂 start: 6 end: 8
0 F0 s, F% J, `9 w: S0 I8 k: nword: 有限公司 start: 8 end: 129 i# z/ q( o1 x% n# [& v: r$ W/ ^

7 H; M. R* Y7 [+ k
0 X3 B# l- x9 P! Q& }/ o& q- h

【搜索模式】' b9 k9 C/ a; U! O( B8 A) \
word: 上海 start: 0 end: 2
" F8 Q9 q. P+ K7 dword: 益民 start: 2 end: 45 d3 k7 S  U7 j" c8 [
word: 食品 start: 4 end: 6
6 n/ V0 \" i& X; p- Cword: 一厂 start: 6 end: 8
$ Y& t  B/ N- i; g2 J$ J8 T" p  Bword: 有限 start: 8 end: 10
; {9 v1 G- p: j- gword: 公司 start: 10 end: 129 ^% D" H* o- A( F% @
word: 有限公司 start: 8 end: 12

  z6 E" B+ L6 u% t4 k
; w- V* X) u. g5 E* C





欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5