/ x* Y9 \; x; |) y J3 x4 f . Y% f* l6 f: C1 X问题分析:需要收集数据计算因变量(和自变量。由于前后是一个时间维度的变化,我们需要恢复前后这段时间的各变量数据。可实现模型:秩和比评价法、主成分分析(自变量太多,可以降维)( u7 |: e1 A& d" y" P2 x, V( A
1 T2 _0 ? a5 D
输入正向变量:指标值越大评价越好的指标 输入负向指标:指标值月销评价越好的指标 除此之外,该题还可以用: # O5 ~- b' n, L( a7 C T8 \! J9 k量化分析方法:层次分析法、秩和比评价法等等 : N+ i4 F" l) x" {( }* I回归分析方法:最小二乘线性回归、主成分分析(自变量太多,可以降维)、岭回归(线性回归自变量共线性太严重时可做)等等. J' o9 ^: _4 J4 i- ]0 }0 o! U
机器学习方法:神经网络、随机森林、xgboost等等 ( }" t6 B8 C6 X* b/ p v" [7 m6 {复杂方法:若是想要拿高等级奖项,最好用仿真优化算法(如遗传算法、粒子群法),同样成本函数最小化、效益函数最大化求解2 i# w5 C3 U$ A* Y8 n2 m {4 C
X/ t. D3 q9 g7 a2 B5 K1 C
三,B题 唐宋诗的定量分析与比较研究 1 [* d8 u( ^+ a. S4 @唐诗和宋诗在文学风格上有较为明显的区别,这一点在古代文学研究中 早有定论。所以唐诗和宋诗有时甚至会直接指代两类不同的诗作风格。历史* V0 V8 F2 i* N. e7 l5 X8 f4 n
学家缪钺在《论宋诗》一文中说:“唐诗以韵胜,故浑雅,而贵蕴藉空灵;宋诗以 9 a! g, M8 t' R. ~意胜,故精能,而贵深折透辟。唐诗之美在情辞,故丰腴;宋诗之美在气骨,故 瘦劲。唐诗如芍药海棠,秾华繁采;宋诗如寒梅秋菊,幽韵冷香。……譬诸游, _. u( N h0 y, E4 |3 T
山水,唐诗则如高峰远望,意气浩然;宋诗则如曲漳寻幽,情境冷峭。唐诗之 弊为肤廓平滑,宋诗之弊为生涩枯淡。虽唐诗之中,亦有下开宋诗派者,宋诗6 z1 J' d3 p6 b: ^9 j, M
之中,亦有酷肖唐人者;然论其大较,固如此矣。”在钱钟书的《谈艺录》中也谈" H! G7 R1 t8 g1 u d+ A
到“诗分唐宋”的问题:“唐诗、宋诗,亦非仅朝代之别,乃体格性分之殊。天下 , j( T1 `1 h1 b+ r& }有两种人,斯分两种诗。唐诗多以丰神情韵擅长,宋诗多以筋骨思理见胜。严 仪卿首倡断代言诗,《沧浪诗话》即谓‘本朝人尚理,唐人尚意兴’云云。曰唐( @8 h3 P) k5 g" F! I$ V3 o
曰宋,特举大概而言,为称谓之便,非曰唐诗必出唐人,宋诗必出宋人也。故 , M- X* _, V5 {/ ?唐之少陵、昌黎、香山、东野,实唐人之开宋调者;宋之柯山、白石、九僧、四灵, & g7 I$ r* f0 d- R则宋人之有唐音者。”他们的观点都认为唐诗和宋诗并非只有年代上的区分, 而且在文学风格上也代表着完全不同的类型,甚至有个别唐朝诗人的诗作是 5 G7 G2 Y1 @! Y5 N9 ~宋诗的风格,而个别宋朝诗人的诗作更接近唐诗。 我们试图使用定量分析的手段来研究唐宋诗之差异。附件中包含了《全唐 诗》收录的 5 0 N) ^ L" A$ [9 J: |万余首诗,《全宋诗》收录的约 26 万首诗。为了研究唐诗与宋诗 在风格上的差异,请你建立合理的数学模型,研究如下问题: 5 L' |1 q# A0 y' G! e; G) v # ^5 g% V+ [: ]/ |9 O1 B% W0 x/ [第一阶段问题: ; i3 S, R. V0 S3 v" P& i 2 [& h8 O6 X# J7 n; M: O* L请研究诗中出现的常见字(词),研究是否能够通过比较字(词)频上的+ ?2 Y& O3 T! s6 n: z5 q
差异来区分不同诗人的风格。请注意,由于诗的特殊格式限制,所以诗) B( ]4 E* R9 V8 W+ `7 a
作中的字词用法与散文或日常语言中可能会有不同。 % w) ~/ e/ S' `" M4 w如果有一对字(词)在同一首诗中(或同一句中)同时出现,我们可以认+ e/ }* |! v" x& y, K& b
为它们之间具有某种关联,以下将其称为字词关联。请统计不同时代的; I( O) e3 E' ?. B# z! a/ ]
诗中的字词关联,并研究这项指标是否能够体现诗作时代的变化。5 g& o5 _. q, f
请设计一个或多个有效的指标,来衡量唐诗和宋诗的风格差异。如果能+ K" a9 k3 S2 B, z4 V9 w% T, a
给研究带来便利的话,我们也可以考虑选择唐代和宋代的某些风格强 0 c+ v4 E) I- P烈且时间距离较远的时期(例如初唐时期和南宋时期)的诗作来进行比 # p- j# f; k# {较研究。 ' F5 k8 s |& `/ p4 ^, S请分别选出 50 首风格最具代表性的(并非文学成就最高的)唐诗和宋- M) x6 r" b3 _
诗,并说明选择标准的合理性。 7 u4 F7 P* l/ V6 R1 A3.1,分析:(最难的一道题) , a/ i( C- q; Z 2 r* q: M) u* p& A; `0 A8 S! j, ^5 b3 E
较为考研数据处理能力 . e, g: M/ n- g: y模态分析微分方程组(公式2)包含六个矩阵:: y/ s1 [ h8 I6 `: Z
[K]代表刚度矩阵。可参考“结构静力学”中的解释说明 . }8 C8 ^3 g6 k7 N; F{u}代表位移矢量。主要用来描述模态分析的振型。可参考“结构静力学”中的解释说明,但是,一定要注意,模态分析中得到的位移矢量与静力学分析中位移矢量代表变形不同。5 K. t7 }- {+ E( X1 Y! Z# m
[C]代表阻尼矩阵。指结构在振动过程中受到的阻尼,事实上,在宇宙空间中,任何结构在动力学过程中都包含阻尼,阻尼直接影响到结构的振动频率与振动形态。比如某些结构为了降低振动带来的产品性能伤害,选择用橡胶垫片等;然而在频率计算中,因为阻尼对常规结构的影响较小,往往忽略阻尼。阻尼的种类很多,在有限元分析中有材料阻尼、结构阻尼、系统阻尼以及瑞利阻尼等。 & W5 E" h8 r7 r/ T: D3 L2 p8 N{}代表节点速度矢量。速度矢量与阻尼矩阵共同组成了力平衡矩阵,速度矢量就是位移矢量的一阶导数。速度矢量同样需要通过有限元计算得到。4 N4 a& e3 }$ l4 g9 T* a0 D
[M]代表结构质量矩阵。质量矩阵形成结构的固有惯性,是区别于静力学分析的又一重要因素。在有限元分析时,往往需要对结构网格化,因为网格化技术的限制,有限元模型得到结构质量与实际模型质量往往不同,这里就需要工程师具备丰富的工程经验来判断修正与质量配平。 % \$ k0 _; m1 A- G7 R6 r$ f' A- O. w{ü}代表节点加速度矢量。加速度矢量与质量矩阵共同组成了力平衡矩阵,加速度矢量就是位移矢量的二阶导数。加速度矢量同样需要通过有限元计算得到。 ) I/ a, l' m; K% s' U有了大量数据之后,下一步就是分析这些数据,期望通过合适的数据分析挖掘技术建立模型找到蕴藏在数据下面的客观规律。大数据分析技术经过这么多年的发展,已经形成了一些分析建模的基本思路。CRISP-DM(即“跨行业数据挖掘标准流程”的缩写)是一种业界认可的用于指导大数据分析挖掘工作的方法。! l; G+ J Q% ?. f$ B% d# ]
8 K" M3 R9 w D' `- b- Y0 Q, E
CRISP-DM认为在大数据分析中存在一个大数据分析挖掘生命周期模型。在这个生命周期模型中存在着商业理解、数据理解、数据准备、建立模型、模型评估和结果部署这六个阶段。图1中展示了这六个阶段的关系,其中箭头的多少表示各个阶段间依赖关系的使用频率和重要程度,每个阶段之间并不一定要严格遵守顺序。实际上,大多数项目都会根据需要在这些不同的阶段之间来回移动。. I% U2 P7 c6 E d; b5 n
! P' z% v9 S- H
商业理解通常是指理解业务的实际类型,业务上的实际问题并且尝试尽可能多地了解数据挖掘的业务目标。数据理解是指数据理解阶段包含深入了解可用于挖掘的数据,此过程包括初始数据的收集,初始数据的描述以及数据质量的验证。数据准备是数据挖掘最重要的阶段之一,通常需要花费大量的时间。据估算,实际的数据准备工作通常占50-70%的项目时间和工作量。 & Y& Q6 F7 h) A @" P. a& u ) i& e2 }9 M& h( t- b" b9 l数据准备通常包含以下任务:合并数据集和记录、选择数据子集样本、汇总记录、导出新的属性、排序数据以便建模、删除或替换空白值或缺失值、分为训练数据集和测试数据集等。经过数据准备,下一阶段就是建立模型。建模时通常会执行多次迭代,选择合适的模型算法,运行多个可能的模型,然后再对这些参数进行微调以便对模型进行优化,最终选择出一个最佳的模型。在模型评估阶段,需要对项目结果是否达到业务成功标准进行评估。此步骤的前提条件是对声明的业务目标有清晰的了解,因此在前期的商业理解越发显得重要。模型评估完成之后就进入到结果部署阶段,在该阶段就是将前期选择出来的最佳模型应用到实际业务中去,并得到最终报告。8 F7 w0 G/ [' G: l; U
8 h: v2 C6 R7 A1 b, A% n
四,C题 污水流行病学原理在新冠疫情防控方面的作用( Y' K+ s5 R0 D9 h# A
2019 年新型冠状病毒肺炎疫情暴发至今已过两年,新型冠状病毒历经多 次变异,目前已有 11 / J1 Y' ]% ?, C. C- ]种变异毒株,包括阿尔法、贝塔、德尔塔、奥密克戎等。 其中变异株奥密克戎已在世界上多个国家和地区流行。相比此前流行的变 $ q$ Q7 H/ M6 A/ R2 ?( Y异株,奥密克戎具有大量关键突变,其传播力和隐匿性更强,且存在免疫逃 逸,更容易多点散发或集中暴发。截至 2021-12-08,全球共有 57 , L; j3 Y* r3 H! _个国家和地 区报告奥密克戎变异株,截至 2022-01-20,奥密克戎已经波及我国 14 个省。 % V7 P- P: c3 d; }# Q虽然可以通过区域全员核酸检测的方式快速发现感染者并进行有效隔离。但 是大规模核酸检测成本较高,而且对于经济、生活都会产生较大的影响,使 ! [7 \1 x6 }) d1 `* Y% N用频率有限。为了解决这个问题,2020 年 8 月,世界卫生组织(WHO)发布 了名为“新冠病毒环境监测的现状(Status of& R1 U; f9 Z0 W8 p
environmental surveillance for SARS-CoV-2: l9 M' _, V; `% j# c
virus)”的科学简报。文中总结了通过市政污水进行新冠病毒监 测的背景、方法和用途,为全球抗击疫情提供了一份指导方案。污水监测是以 5 @2 K' ~0 K# X. W; Z& H7 D5 H污水流行病学(Wastewater-Based Epidemiology,WBE)的原理为手段,通过 + f1 U3 K0 [& o( C分析市政污水处理厂进水中的污染物或者生物标记物浓度,结合人体代谢机 理、进水流量和服务人群数量等信息,反推该物质在污水集水区内的状况,这 ( w, J- L" p. p2 n; P6 O/ o一方法或在未来新冠疫情的大规模防控上发挥重要的作用。 所谓污水流行病学便是基于污水中蕴藏的丰富信息,通过分析污水处理& u! |$ h P% c p4 ^# W
厂进水中的化学物质浓度,根据人体代谢机理、进水流量和服务人口数量估 算该地区人群消费某类化学物质的规律,调查与之相关的疾病、消费、健康等 ) \6 T& y' T/ D ~" F# t2 F公众信息,从而预防和控制相关疾病,提高公众健康水平的科学。当前正在全 1 球范围内流行的新冠疫情,更是将污水流行病学的应用扩展到对疫情的定性. Q7 ?% H9 A7 \7 z5 ~
早期预警、对疾病流行率的定量估计以及疾病突发的定量警报,进一步拓展 了污水流行病学的内涵。该方法有如下几个优点:1、监测的范围大、覆盖面3 y) J/ u' t; o& X4 I/ ^
广,可以评估大规模的社区总体的感染情况。市政污水厂通过污水管网承接 了城市千家万户排放的污水,污水集水区域的人口数量少则千人,多则上百2 w- f* S5 h) P* A, `( a
万人,覆盖的人口非常广泛,包括不能及时或者未发现症状而不进行核酸检 测的感染者,因此能够更好的对疫情进行评估和预测。2、可预知病毒社区感9 [' N: b2 c% H! S
染的重新爆发。由于污水新冠病毒的检测结果比临床患者出现早,因此会有 预警作用。3、可作为疾病传播动态监测的辅助手段。对卫生监督结果进行有, z+ J+ m9 w" _+ ]' B
效的补充,这一点在中低收入的国家尤为重要。2 t1 c" @9 C/ ~# P) [
( B* ~: I, u* G" t! I第一阶段问题: # ?9 f. P- g" y ! `$ g7 `; |5 V' N8 g' t( ^. k请根据附注网站上的数据,研究美国污水监测采样点的分布是否合理? 9 r& E, W. w$ m3 u如果可以增加十个采样点,请建立数学模型,选择最合理的位置设置采 8 C0 s+ J4 K; B- i* z样点。) a' f! Q0 K5 O& g$ S
请对数据进行分析,对于可能出现的大规模疫情进行预警,并给当地的 & p, A$ U6 {/ E, s7 h- ^; A政府写一封信(一或二页),说明对疫情的预判,对情况严重性的估计, 3 R6 J" X" U# S4 `# ~并给出一定的防控建议。, N8 V! s7 f1 R, u7 q4 f
4.1,分析 (最简单的一道题)往年经常见,网上质料很多 / Y9 f6 |) i% Z$ j+ O7 `5 P s. r: ^% e! a
$ S9 ^$ @0 L' |( |) D' N( G X关联规则分析(Apriori)算法容易理解,能够用简单的if-then规则描述数据之间的完备关系;得出的规则具有可读性;能处理连续和离散的数据数据间可能不存在强规则;由于要查找整个数据库中的所有可能规则,可能会出现组合爆炸问题数据形式规范7 [) @: c) g3 p. @8 r/ V1 Y
第一,自动预测趋势和行为。数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。比如在GOOGLE流感分析案例中预测流感爆发的时间和地点。 " ~. [5 O# H$ S4 q9 e$ C( i2 I8 d* E* r' ~# f5 M
第二,关联分析。数据关联是数据库中存在的一类重要的可被发现的知识,若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析旨在找出具有强相关关系的几个属性。典型案例是啤酒和尿布的关联分析,关联分析经常用在电子商务的产品推荐中。# J& x* W* F' G