数学建模社区-数学中国

标题: 2014年汇丰杯中国高校SAS数据分析大赛获奖感言——北京大学 [打印本页]

作者: 数学中国—罂粟    时间: 2014-12-15 17:47
标题: 2014年汇丰杯中国高校SAS数据分析大赛获奖感言——北京大学
SAS大赛总结
--北京大学公共卫生学院 项骁
队员:霍滢,李楠
         在不久前结束的“汇丰杯”2014年全国高校SAS数据分析大赛上,我们组取得了第四名的成绩。作为决赛场上为数不多的医学院队伍之一,取得这样的名次,我们其实感觉挺惊喜的。作为第二次参加这个比赛的队伍,这一年以来还是有很多值得回忆和总结的地方。
1.     偶遇SAS大赛
去年8月份,我那时刚刚本科毕业。由于选择了保研,不用为工作、出国或者考研而四处奔波,我在家有了整整一个暑假的时间可以挥霍。打发时间的方式除了躺地板上看书就是上网刷社交网站,时间久了也令人厌倦,竟萌发出一丝学习的念头。大学期间上课看过一些SAS输出的结果,电脑里也存在之前搜索来的电子书:《The little SAS Book》,所以我打算学下SAS。记得之前买过一本《SAS从入门到精通》,没看两页便束之高阁。于是,这次便打算借着这股无聊劲儿把《The little SAS Book》啃下来。没想到的是,我完全被书里清晰的逻辑和幽默的语言所吸引了,这一看就是半个月。
研究生报到之后,选了两门SAS的课,也正是在这两门课上认识了比赛的指导老师,王洪源老师。9月底,其中一门课就要结课考试,我在网上搜索SAS有关的考试试题。无意中点进了“2013年全国高校SAS数据分析大赛”的页面,当时信心满满的我决定报名,也在学院的群里发了链接招募队友。当时找到了李楠和一个本科生一起参赛。
2.     第一次参赛
去年的参赛规则与今年有所不同,一个学院只能有一支队伍报名参加。所以,当我发邮件询问报名情况的时候,主办方告知,我所在的学院已有别的队伍报名,而当时离报名截止只有1周了。令我感动的是,主办方科学软件网的Linda女士一直耐心得解答我们的疑问,并且为我们提供解决问题的方案。最终,我们以医学人文研究院的名义参加了第一届比赛。
第一届初赛的题目并不难,甚至可以用简单来形容。但当时自信满满的我们,没能完成其中的任何一题。作图题画出的是椭圆,logistic回归没有看懂题意,时间序列分析还是第一次听说,而线性规划的题目简直就是天书。这个挫折让我们看到了学校课堂上学习的内容和实际应用之间巨大的差距,也让我们看到了SAS软件的背后,不只是写代码,更重要的是对统计方法和统计模型的理解。初赛的结果出来之后,不出意料,惨遭淘汰。而我们也决定好好学习,来年再战。
3.     第二次参赛
在接下来的一年里,我选修了很多统计学的课程,也去了经济学院旁听了一些他们定量研究的课程。我越来越发觉统计学是一门有意思的学科。今年5月份,2014年SAS大赛如期开放报名。本科队友忙于保研,而我和李楠继续参加,这时有了一位强大的队友加盟——霍滢。
今年的初赛比去年难上了一个数量级。甚至,我认为初赛的题目在传统意义上比决赛更具挑战性。第一个作图题要求程序能智能得根据数据集的内容输出合适合理的图表。第二个非线性模型建模的方法,则考验了很多统计模型方面的能力,我们在设定模型初始值的问题上无法进行下去。而时间序列分析不再像去年一样简单写出方程,而是有了很多的技巧在里面。例如通过随机抽样来建模,会比直接用这几十万条记录来建模花费的时间更短,这样在有限的时间里,我们才能得到更多的尝试机会。而线性规划问题可能比去年更偏重于应用,还算比较容易,至少让我们这些没有学习过运筹学的医学生也能做出一部分。
我们顺利得进入了决赛,在到决赛之前的一个月里面,指导老师王洪源老师给了我们很大的帮助。他帮我们理清了初赛几道题目的思路,也推荐了一些可以好好准备的统计学问题。
决赛的思路和初赛完全不同。如果说初赛像是解决难题的高中数学竞赛,那么决赛更像是一个解决实际问题的过程。无论是预测客户行为的模型题还是第二天数据清理的题目,都很有意思。
首先让我很吃惊的是银行数据分析部门对于统计模型的严谨程度比学术界还好高出很多。在学术研究,尤其是医学研究中,和对待临床问题的一丝不苟相反,对一个logistic模型条件和模型的优化往往是被忽略的过程。变量在进入模型之前应该经历那些转换,转换的理由是什么,怎么解释,怎么评价模型的好坏,选择哪些候选的模型,怎样筛选变量,怎样验证模型的预测性能,这些问题是往往学术研究中容易忽略的,这也是我们从这个比赛中学习到的一个内容。
其次,和来自不同专业和学校的同学交流能发现,针对同一个问题,往往不同背景的同学会有不同的看法。例如在变量的筛选上,就有Data Driven和Theory Driven两种截然不同的观点。来自理工科的同学往往强调模型应该更好的拟合数据,而来自经管的同学往往坚持每一个变量进入和退出都应该有理论上的依据。作为医学院的同学,我们对那些变量的现实含义完全不理解,又不敢随意选择,在这个问题上耽误了太多的时间。这也是我们第一题失利的重要原因。因此,从这个问题上,我们认识到,很多实际问题不是单领域问题,而需要来自不同相关专业的人共同合作解决。
最后,在颁奖典礼的会上,我也得知了SAS在工业界其实有着非常广泛的应用。我们今天学习SAS语言的使用,不仅有助于科学研究上的应用,也能使我们将来能有非常广阔的职业选择。
4.     最后附上另外两名队友的比赛感言
李楠
感谢sas公司为我们大学生提供一个公平、快乐的平台。作为一支医学生参赛队,我们在比赛中受益匪浅,对sas软件内部处理数据有了更深刻的认识,了解到sas数据分析工具在金融领域应用广泛,此外,我还认识了优秀的队友和其他参赛者,在比赛中发现自己的不足,鞭策我在以后的学习中不懈努力。
建议:如果sas公司在医学领域举办类似的比赛就更好了。”
霍滢:
         “感谢主办方为我们提供了一个学习SAS技能并与其他伙伴切磋的平台,比赛过程中组织合理、结果公正,让我们能够体会到主办方的严谨和用心。SAS大赛的备赛、参赛过程是我学习和提高的过程,在这个过程中,指导老师和队友的帮助让我不但更充分的认识了SAS软件、提高了SAS的使用技能,也充分认识到自己的不足,另外,比赛结束后多家企业的小型招聘会无疑是大赛的一个亮点,用人单位对SAS操作能力的看重不言而喻,也让我更加坚定了学习、研究SAS的决心。”

% I3 q- I4 _# g+ w( W) M" D  x/ Q$ ^2 L% l# z1 b

作者: 一束阳光    时间: 2015-9-4 11:46
初来乍道!赶紧学习……谢谢共享!
' q9 _# ]: o2 n  }
作者: 本世界的大人    时间: 2015-9-4 15:39
谢谢分享,学习学习。。。。) z; j1 }/ J3 ^$ d& H* s: y

作者: 折旧    时间: 2015-10-3 11:15
thinks  very much
- Q8 j: O9 V8 L1 r: g3 w. P




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5