求c语言数据挖掘算法
老师最近给我们发了一个文档,txt格式的。大小有2GB。要求使用C++配合hadoop,用最快的速度统计出文档中出现频率最高的10个词。
what can I do? can you give some ideas? 楼主应该把所有单词放到链表中,并且建立一个链表的索引。字典序排列每一个单词,重复出现在链表中计数。
hadoop是什么啊? 我爱照镜子 发表于 2013-8-21 14:28 static/image/common/back.gif
楼主应该把所有单词放到链表中,并且建立一个链表的索引。字典序排列每一个单词,重复出现在链表中计数。
...
我也不太清楚,好像和云计算有点关系 我爱照镜子 发表于 2013-8-21 14:28 static/image/common/back.gif
楼主应该把所有单词放到链表中,并且建立一个链表的索引。字典序排列每一个单词,重复出现在链表中计数。
...
谢谢你的回答,只能这样做了 学到了!
math~a 发表于 2013-8-21 22:15 static/image/common/back.gif
学到了!
您有什么好的想法吗? 只看到2L的思路,学到了他的方法,自己的还没出来!!{:soso_e149:} 不错 不错 谢谢啦! hadoop中不是有自带的wordcount的例子么,LZ可以去试一试
页:
[1]