) D: }2 e2 B& l9 E* F, V# l& y / c2 U! M& I& w2 U u' b m! _其目的是在海量语料库中发现在固定窗口内单词a和单词b共同出现的频率,从而构建单词共现矩阵,这样的矩阵可以是对称的,也可以是不对称的,这要看具体的应用。* `) r; g' T- r
7 p1 X# ]; @: v. J+ y
/ C2 {9 h2 m D# p& |) f这种抽象化的任务的有效解决在实际生活中有着很多的应用。例如电子商家希望发现不同物品被同时购买的情况以便有效安排货物的摆放位置;同时对信息检索领域同义词词典的构建以及文本挖掘等都有着重要的实际应用价值。 2 V4 @0 [4 j& ]' O5 r" L' k % h) S- d( B$ ~7 u8 C) K1 `5 c) s' e p$ F
根据同现关系的不同,可能需要实现和定制不同的FileInputFormat和RecordReader,如同现关系为一个英文句子,则需要实现以一个英文句子为单位的FileInputFormat和RecordReader,如同现关系为一个段落,则需要实现以一个段落为单位的FileInputFormat和RecordReader # t; t, s2 i' ?0 I9 t3 `5 o: `- Z
& j6 O' z% C0 U' u5 L0 P0 O
: v( e4 c% v6 ]5 W! K. r 8 I! s; k+ c2 e! q* f2 \; |三倒排索引 ! S- e) J0 z3 R) J9 r5 K; D4 [ , Q4 G2 U2 \, A# c' u$ A ' \& S! U- c) r# o5 P