数学建模社区-数学中国
标题:
我对华中A题的看法
[打印本页]
作者:
alexzhan
时间:
2010-5-1 16:56
标题:
我对华中A题的看法
本来打算做苏北的题目,结果今天中午看到了华中A题。因为我对这方面比较熟悉,所以决定做这个题目,而且是我一个人来做。我组里另外的人做苏北。 看了一下午了,说说我的想法。
1 [, N6 j* q L2 ]. k( I O
这个题目虽然是数模题目,但是专业性还是比较强的。我数模做的题目不多,但是这方面的研究还可以。我做过数据挖掘的研究,也写过爬虫抓取网站内容。
% c* j) h3 o- j' l- c4 {1 }0 U/ E. N& x
本题末尾一句已经变动,其实如果不变动的话,歧义也不大。数据获取一定要到网站抓取,个人认为,还是写程序来获取比较好。以discuz7.2论坛模板为例(现在论坛大部分是用的开源的系统。phpwind,discuz等等,discuz用户最多),其实论坛模块都是比较固定的,url链接也是固定的,这就变成了垂直搜索,对于编写爬虫程序来说十分方便。
$ u1 O; R+ J9 A6 X6 L0 x- e
抓取过程中,跟帖数量是十分好确定的,精华贴数把url链接加上&filter=digest (还要相应做下变动),置顶时间是要看置顶持续时间,这个不好做,发贴数量直接抓取的到。然后对这些数据赋予一些权重,并加权,就可以确定言论领袖。
" B5 R3 r1 @% A$ A1 p& I
话题用户的定位,看跟帖主题。谈论内同不好判断。
5 M- K0 }4 {1 \1 ~# a' ~" S
活跃用户要看在线时间以及参与话题数量,后者不好确定,自己想办法解决。
) F: p4 G9 z# t% n8 t
关系圈的确定:在第二问的基础上做,也就是确定了话题用户之后,看用户经常讨论的话题的相同度或者相似度。
2 K. D# M7 H$ G( K4 @
好了,先提供这些。我得赶快做了。想法肯定漏洞比较多,自己斟酌权衡。
作者:
a28751950
时间:
2010-5-1 17:24
恩 十分赞成你的想法 但是关键我们不清楚如何去抓取? 能不能交流下哈 my qq :413273948! 谢谢啦! 正苦恼中....
作者:
xuyuqing324
时间:
2010-5-1 17:36
恩 数据怎么采集 想了一天了 没有结果 求指教!474829291
作者:
咫尺天涯
时间:
2010-5-1 17:46
十分赞同你的看法!!!!!!!!
作者:
liqiwin
时间:
2010-5-1 23:22
终于有点感觉,十分的感谢你啊
& B" q7 f b5 _; z& C% a& Z
% I: U1 g, j0 o0 P" F
谢了
作者:
potato34
时间:
2010-5-2 01:00
不错啊,
# _" t6 Y0 V8 `8 Y7 Z6 H; n( G
没想到我们学校有高手,
; U' `; L) P4 x. X
哈哈
作者:
dzc72888
时间:
2010-5-2 01:03
谢谢楼主啊
: f2 R* U, g% a; [' |
不过那些爬虫程序的编写能简单介绍一下吗
作者:
1_ven
时间:
2010-5-2 09:15
校友。~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
作者:
lijieguorong
时间:
2010-5-2 09:56
有 没 有 对 B 题 的 看 法 啊 ?
作者:
lisaibei
时间:
2010-5-2 11:10
网络爬虫有很多种,随便一搜就能找到的
作者:
lisaibei
时间:
2010-5-2 11:14
回复
7#
dzc72888
6 N7 }1 F- A; Z3 Y2 V* y+ b
本题要连续挖掘几层数据,需要用纵向爬虫来解决
作者:
lincolnhjf
时间:
2010-5-2 18:07
为什么你们都这么看重最后一句话?
2 l4 N4 ]" C7 Q$ J& i0 T( ^- {- ]
数据获取是很重要,但是题目的意思应该是以识别为主的吧!
作者:
yuanlili
时间:
2010-5-4 12:02
娘啊,数据库还要编程去获取啊,我以为这道题是让我们如何去识别用户,不是怎么去获取数据
作者:
lovehaboy
时间:
2010-5-5 19:46
呵呵,等比赛完了,可以晒晒你的做法啊!
作者:
zhuwenwen
时间:
2010-8-13 09:15
呀,思路有点明确了,不过这个数据获取~~~
作者:
zhuwenwen
时间:
2010-8-13 15:24
作者:
葉_浅浅
时间:
2011-4-26 21:49
其实我一直觉得楼主的品味不错!呵呵!
0 h, i" O; M/ I* o9 F4 F: ?( M2 V, n
我想我是一天也不能离开数学中国社区。
! w8 ~9 {# X$ m8 X' k" V% U
作者:
jmedwardliu1205
时间:
2011-9-4 21:13
作者:
shuxuezaozhuang
时间:
2011-9-28 12:11
liaojie le!!
作者:
王国旗520
时间:
2013-5-8 17:54
没有看懂,呵呵呵呵呵呵呵
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5