2012高教社杯全国大学生数学建模竞赛C题-问题分析
8 o5 S* ]# u- ~4 r; S% E/ i# V8 W
$ R' x9 e, r1 g1 q* z
! O$ K5 y/ A; K& x2012高教社杯全国大学生数学建模竞赛C题 问题分析 本文主要目标是要分析脑卒中受发病环境因素的影响关系以及对应的预防措施,其总体研究方法是通过对现有数据进行统计规律分析,找出脑卒中的发病率与环境因素(温度、湿度、大气压)的关系描述,并通过查询资料文献了解脑卒中高危人群的重要特征及常见的预防脑卒中的预防措施,最后再结合第一问和第二问分析的结果对高危人群提出预警和干预的建议方案,旨在提高对脑卒中的防护能力。鉴于此目的,针对本文具体3个问题,可以进行如下分析: 2.1 针对问题一的分析 本问题主要根据附件(Appendix-C1)中四个文件中的脑卒中发病病例信息进行相关统计分析,这些病例信息指标主要有性别、年龄、职业、发病时间、诊断时间,为了对发病人群进行统计描述,本文主要从以下几点进行考虑: 1. 按性别统计,包括总人数、主要集中年龄段、高危职业名称、发病与诊断时间的间隔(判断该病的潜伏性); 2. 按年龄段统计,包括该年龄段内的性别、人数、比例、高危职业、发病与诊断时间的间隔; 3. 按职业统计,包括该职业内的发病人的性别、集中年龄段、发病与诊断时间的间隔; 4. 分别按发病年、月统计(发病年月和诊断年月基本一致),包括性别、年龄段、高危职业等。 但是从附件数据中发现,在“Time of incidence (发病时间)”和“Report time (诊断报告时间)”中存在不同的时间格式以及错误(如: #### 或空格),因此在对数据进行统计分析前,需要首先对数据进行修复,根据一定修复原则将一些明显的错误信息(如发病时间为5008/7/31、诊断报告时间为27/09/2008情况下,很明显5008应该是2008)。 同时,从附件数据中易发现,部分诊断时间没有数据,而且诊断时间比较混乱,错误比较多,因此本文将不对诊断报告时间进行分析,进而也将不统计发病与诊断时间的间隔。 最后在修复完成后的基础上按上述思想进行脑卒中的发病信息统计,其统计的工具主要是EXCEL,利用EXCEL丰富的公式编辑、筛选、绘图、统计等功能进行处理。 2.2 针对问题二的分析 本问题欲研究脑卒中发病率与气温、气压、相对湿度间的关系,主要需要注意以下几点: 1. 在第一问已修复的数据基础上进行发病率统计,主要统计方法是通过EXCEL的筛选功能和编写程序统计出在2007~2010年期间每一天的发病人数,进而可以计算出按天及按月的发病率; 2. 对附件(Appendix-C2)中数据文件进行整理及统计计算,先按天统计2007~2010年期间每一天的气象信息(温度、湿度、大气压),并计算出每一天的温度差、气压差,再按月分别统计这四年中的8种指标(平均气压、最高气压、最低气压、平均温度、最高温度、最低温度、平均湿度、最低湿度)每月的各个平均值、最大值、最小值; 3. 将1和2统计或计算的数据进行一一关联,构造后续分析的数组。 从上面的统计数据可以看出,该问是一个多元统计问题[1],即分析脑卒中发病率与温度、湿度、大气压的各种指标的关系,主要分析思想如下: 1. 先整体按天(2007~2012年共1461天)分析,分析过程为:① 在EXCEL中画出发病率与各个统计指标的散点图,从直观上寻求发病率与它们是否有明显的规律(如线性相关);② 利用SPSS统计软件对所有数据进行相关性分析,分析两两之间的相关性;③ 利用SPSS软件进行多元线性回归,分析回归结果是否通过显著性检验;④ 由于某些变量之间存在非常大的互相关(如温度之间的三个指标互相关系数都比较大),因此需要对多个变量进行筛选,可用的方法为多元线性逐步回归法(可以借助于SPSS统计软件中的逐步回归选项或MATLAB中的stepwise逐步回归工具箱);⑤ 如果不存在前面操作没有求出发病率与温度、湿度、大气压的相关表达式,则继续按后续方法进行分析处理; 2. 然后按照每月或季节的数据进行类似分析; 3. 按照温度、湿度、大气压三类进行单因素相关性分析,先选择其中两个特征变化很小或在一个指定范围内变化的数据,对发病率与第三个指标进行相关性分析,通过此方法进行单因素分析。 整个过程需要做大量的统计分析,包括绘图及数据归纳整理,主要工具有EXCEL、SPSS、MATLAB。 2.3 针对问题三的分析 本问题首先要通过资料文献了解脑卒中高危人群的重要特征和关键指标、脑卒中的主要诱发因素、常见的预防措施、已有的某些地区对脑卒中发病的统计信息和规律,根据这些信息最大化地提取关于脑卒中发病的指标,再结合问题一、问题二中所得结论,可以根据所查到的关键指标、气象信息、时间序列进行预测模型的建立,如多指标影响因素的多元线性或非线性回归、神经网络预测模型、时间序列预测等等,最后对高危人群提出预警和干预的建议方案。
5 H( v( T; O) i) Y1 |( k4 s# I7 c N
|