数学建模社区-数学中国

标题: 求c语言数据挖掘算法 [打印本页]

作者: wangzheng3056    时间: 2013-8-21 11:57
标题: 求c语言数据挖掘算法
       老师最近给我们发了一个文档,txt格式的。大小有2GB。" b& Z. }# P$ U" N( b" `. x# h
       要求使用C++配合hadoop,用最快的速度统计出文档中出现频率最高的10个词。0 ^$ f2 \1 ~  j6 @; O# k& }
       what can I do? can you give some ideas?
作者: 我爱照镜子    时间: 2013-8-21 14:28
楼主应该把所有单词放到链表中,并且建立一个链表的索引。字典序排列每一个单词,重复出现在链表中计数。1 A: r! f3 w6 ^& [% q# Z  v

  I% Z$ J+ |5 ]3 u& \3 q! p$ W( E& {; ~  K1 u3 [
hadoop是什么啊?
作者: wangzheng3056    时间: 2013-8-21 16:22
我爱照镜子 发表于 2013-8-21 14:28 2 u6 s/ Z  g2 m% D+ `, A, ]
楼主应该把所有单词放到链表中,并且建立一个链表的索引。字典序排列每一个单词,重复出现在链表中计数。
: _" N' P, {6 @% y ...
( b3 W1 t% D( y* Z+ Q) K/ ?! L
我也不太清楚,好像和云计算有点关系
作者: wangzheng3056    时间: 2013-8-21 16:22
我爱照镜子 发表于 2013-8-21 14:28
) j& A, V% e% n: a) \1 D楼主应该把所有单词放到链表中,并且建立一个链表的索引。字典序排列每一个单词,重复出现在链表中计数。+ H0 s* @- j2 w% R! ]6 d: C
...

% V/ N8 Y/ t# E6 k谢谢你的回答,只能这样做了
作者: math~a    时间: 2013-8-21 22:15
学到了!3 h! V. t3 e/ `1 L

作者: wangzheng3056    时间: 2013-8-22 09:00
math~a 发表于 2013-8-21 22:15
( h4 w3 Y( ~  y% F4 o+ c/ i( g) u+ [- R学到了!
" I/ i+ `! h! `4 }/ \8 g+ m* I; l
您有什么好的想法吗?
作者: math~a    时间: 2013-8-22 14:21
只看到2L的思路,学到了他的方法,自己的还没出来!!
作者: 海阔天空521    时间: 2013-8-22 17:39
不错 不错 谢谢啦!
作者: topershbby    时间: 2013-10-8 09:38
hadoop中不是有自带的wordcount的例子么,LZ可以去试一试




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5