我对华中A题的看法

alexzhan 发表于 2010-5-1 16:56

本来打算做苏北的题目，结果今天中午看到了华中A题。因为我对这方面比较熟悉，所以决定做这个题目，而且是我一个人来做。我组里另外的人做苏北。  看了一下午了，说说我的想法。
  这个题目虽然是数模题目，但是专业性还是比较强的。我数模做的题目不多，但是这方面的研究还可以。我做过数据挖掘的研究，也写过爬虫抓取网站内容。
  本题末尾一句已经变动，其实如果不变动的话，歧义也不大。数据获取一定要到网站抓取，个人认为，还是写程序来获取比较好。以discuz7.2论坛模板为例（现在论坛大部分是用的开源的系统。phpwind，discuz等等，discuz用户最多），其实论坛模块都是比较固定的，url链接也是固定的，这就变成了垂直搜索，对于编写爬虫程序来说十分方便。
  抓取过程中，跟帖数量是十分好确定的，精华贴数把url链接加上&filter=digest （还要相应做下变动），置顶时间是要看置顶持续时间，这个不好做，发贴数量直接抓取的到。然后对这些数据赋予一些权重，并加权，就可以确定言论领袖。
  话题用户的定位，看跟帖主题。谈论内同不好判断。
  活跃用户要看在线时间以及参与话题数量，后者不好确定，自己想办法解决。
  关系圈的确定：在第二问的基础上做，也就是确定了话题用户之后，看用户经常讨论的话题的相同度或者相似度。
好了，先提供这些。我得赶快做了。想法肯定漏洞比较多，自己斟酌权衡。

a28751950 发表于 2010-5-1 17:24

恩十分赞成你的想法但是关键我们不清楚如何去抓取？能不能交流下哈 my qq ：413273948！谢谢啦！正苦恼中....

xuyuqing324 发表于 2010-5-1 17:36

恩数据怎么采集想了一天了没有结果求指教！474829291

咫尺天涯 发表于 2010-5-1 17:46

十分赞同你的看法！！！！！！！！:D

liqiwin 发表于 2010-5-1 23:22

终于有点感觉，十分的感谢你啊

谢了

potato34 发表于 2010-5-2 01:00

不错啊，
没想到我们学校有高手，
哈哈

dzc72888 发表于 2010-5-2 01:03

谢谢楼主啊
不过那些爬虫程序的编写能简单介绍一下吗

1_ven 发表于 2010-5-2 09:15

校友。~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

lijieguorong 发表于 2010-5-2 09:56

有没有对 B 题的看法啊？

lisaibei 发表于 2010-5-2 11:10

网络爬虫有很多种，随便一搜就能找到的

页: [1] 2

数学建模社区-数学中国's Archiver

我对华中A题的看法