我对华中A题的看法
本来打算做苏北的题目,结果今天中午看到了华中A题。因为我对这方面比较熟悉,所以决定做这个题目,而且是我一个人来做。我组里另外的人做苏北。 看了一下午了,说说我的想法。这个题目虽然是数模题目,但是专业性还是比较强的。我数模做的题目不多,但是这方面的研究还可以。我做过数据挖掘的研究,也写过爬虫抓取网站内容。
本题末尾一句已经变动,其实如果不变动的话,歧义也不大。数据获取一定要到网站抓取,个人认为,还是写程序来获取比较好。以discuz7.2论坛模板为例(现在论坛大部分是用的开源的系统。phpwind,discuz等等,discuz用户最多),其实论坛模块都是比较固定的,url链接也是固定的,这就变成了垂直搜索,对于编写爬虫程序来说十分方便。
抓取过程中,跟帖数量是十分好确定的,精华贴数把url链接加上&filter=digest (还要相应做下变动),置顶时间是要看置顶持续时间,这个不好做,发贴数量直接抓取的到。然后对这些数据赋予一些权重,并加权,就可以确定言论领袖。
话题用户的定位,看跟帖主题。谈论内同不好判断。
活跃用户要看在线时间以及参与话题数量,后者不好确定,自己想办法解决。
关系圈的确定:在第二问的基础上做,也就是确定了话题用户之后,看用户经常讨论的话题的相同度或者相似度。
好了,先提供这些。我得赶快做了。想法肯定漏洞比较多,自己斟酌权衡。 恩 十分赞成你的想法 但是关键我们不清楚如何去抓取? 能不能交流下哈 my qq :413273948! 谢谢啦! 正苦恼中.... 恩 数据怎么采集 想了一天了 没有结果 求指教!474829291 十分赞同你的看法!!!!!!!!:D 终于有点感觉,十分的感谢你啊
谢了 不错啊,
没想到我们学校有高手,
哈哈 谢谢楼主啊
不过那些爬虫程序的编写能简单介绍一下吗 校友。~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 有 没 有 对 B 题 的 看 法 啊 ? 网络爬虫有很多种,随便一搜就能找到的
页:
[1]
2