% C6 w8 ]# n q @3 N) }分词统计(四)唐宋元诗人吟诗作词的时候,最偏爱哪些词语呢?(附上AI写的1000句诗!): g P( s( O& J. P1 u4 @# P
- B# M. \. Y- o4 L& N$ U9 `2 P
要知道诗人们最偏爱哪些词语,需要统计诗词中的高频词,可以利用”讯飞分词”做一个大致的统计。6 x( k- E4 t d3 X( p0 d
本次统计了唐诗320首,宋词300首,元曲300首,总共920首,分词总量为14353个。! g- A, T5 L. S5 l5 g
% \4 o+ e s2 a1 w之前听说过国外的人工智能可以自己写诗了,其实掌握了我们古代诗词的大数据,加上对语义的理解,套上算法,我们就可以自己写诗了!。文章的后面我会放上一些简单的AI写的诗。4 n/ t% F2 @4 |& ?, [
, T7 g1 Q3 K. j: X3 L0 j9 J
唐诗统计结果4 N, m, p0 ]( O# P! x
分词总量6774个 4 f9 ^# e0 P9 t; [( {( G9 p前15个高频词总共1034个,占总比15.26%4 V9 p% h+ s. p# Y6 e9 }/ h8 b, M
, N7 z( b* @ Y6 A$ z7 H# {0 }* i" S3 M
宋词统计结果 6 s4 S# ~, A" ^' j7 b: x! [分词总量6263个" |! P# R; y. l, J7 {/ f
前15个高频词总共1243个,占总比19.85% % R' R8 a3 T* Y 7 ^) I3 S; g6 [/ B4 k: W2 k, W4 R& m6 y$ {6 ^
元曲统计结果 6 S9 I% }3 I- u/ o. Q分词总量4028个9 d1 R. b* H& _2 p/ w
前15个高频词总共746个,占总比18.52%/ E6 E. `3 q0 f0 f. Z) o
7 y& n Y# ]/ T6 O 6 b2 x8 C4 u8 p" r三者前15个共同出现的词语 - {7 T) J) M. f0 [, C一句话概括:一人不来去 , k; P6 N6 U5 P5 L! |! J5 {这5个词语,占唐诗宋词元曲各自前15的比率分别达到了39.75%,40.55%,46.38%的惊人比例( S7 `$ f6 U) @9 U2 D2 ^
总结- Q" r2 V' C' V2 l# f
一人不来去是唐宋元诗人用的最多的超高频词语,几乎每首都会出现 6 i" A' [5 O: B& d- B: }# q比如说随机来几首:2 p. p+ {1 @& u T2 \