数学建模社区-数学中国

标题: 求c语言数据挖掘算法 [打印本页]

作者: wangzheng3056 时间: 2013-8-21 11:57
标题: 求c语言数据挖掘算法
   老师最近给我们发了一个文档，txt格式的。大小有2GB。
   要求使用C++配合hadoop，用最快的速度统计出文档中出现频率最高的10个词。
   what can I do？ can you give some ideas？

作者: 我爱照镜子 时间: 2013-8-21 14:28
楼主应该把所有单词放到链表中，并且建立一个链表的索引。字典序排列每一个单词，重复出现在链表中计数。

hadoop是什么啊？

作者: wangzheng3056 时间: 2013-8-21 16:22

我爱照镜子发表于 2013-8-21 14:28 ( ]0 Z' }; K `2 G- D
楼主应该把所有单词放到链表中，并且建立一个链表的索引。字典序排列每一个单词，重复出现在链表中计数。4 \2 i/ t- |( Z7 ^" G& x
...

我也不太清楚，好像和云计算有点关系

作者: wangzheng3056 时间: 2013-8-21 16:22

我爱照镜子发表于 2013-8-21 14:28
# s5 [' e( a5 ~. S8 ]( r c" m1 f楼主应该把所有单词放到链表中，并且建立一个链表的索引。字典序排列每一个单词，重复出现在链表中计数。1 U5 E3 B* F t7 H9 H
...

谢谢你的回答，只能这样做了

作者: math~a 时间: 2013-8-21 22:15
学到了！

作者: wangzheng3056 时间: 2013-8-22 09:00

math~a 发表于 2013-8-21 22:15
! O( ~# r- c; Q+ _; V* x学到了！

您有什么好的想法吗？

作者: math~a 时间: 2013-8-22 14:21
只看到2L的思路，学到了他的方法，自己的还没出来!!

作者: 海阔天空521 时间: 2013-8-22 17:39
不错不错谢谢啦！

作者: topershbby 时间: 2013-10-8 09:38
hadoop中不是有自带的wordcount的例子么，LZ可以去试一试

欢迎光临数学建模社区-数学中国 (http://www.madio.net/)