+ Q/ r9 \ i: P) _商业理解通常是指理解业务的实际类型,业务上的实际问题并且尝试尽可能多地了解数据挖掘的业务目标。数据理解是指数据理解阶段包含深入了解可用于挖掘的数据,此过程包括初始数据的收集,初始数据的描述以及数据质量的验证。数据准备是数据挖掘最重要的阶段之一,通常需要花费大量的时间。据估算,实际的数据准备工作通常占50-70%的项目时间和工作量。 ( L! q/ ?1 C' D5 E8 a9 z% _: K: h6 P) y- I- \
数据准备通常包含以下任务:合并数据集和记录、选择数据子集样本、汇总记录、导出新的属性、排序数据以便建模、删除或替换空白值或缺失值、分为训练数据集和测试数据集等。经过数据准备,下一阶段就是建立模型。建模时通常会执行多次迭代,选择合适的模型算法,运行多个可能的模型,然后再对这些参数进行微调以便对模型进行优化,最终选择出一个最佳的模型。在模型评估阶段,需要对项目结果是否达到业务成功标准进行评估。此步骤的前提条件是对声明的业务目标有清晰的了解,因此在前期的商业理解越发显得重要。模型评估完成之后就进入到结果部署阶段,在该阶段就是将前期选择出来的最佳模型应用到实际业务中去,并得到最终报告。 1 a" @ P# b* K. S' J+ J7 S4 W$ o7 u$ f7 O5 \) P: T' l+ I
四,C题 污水流行病学原理在新冠疫情防控方面的作用! j" ?; o0 S, v2 t0 Q& w
2019 年新型冠状病毒肺炎疫情暴发至今已过两年,新型冠状病毒历经多 次变异,目前已有 11; ]/ y" U0 R' T* \
种变异毒株,包括阿尔法、贝塔、德尔塔、奥密克戎等。 其中变异株奥密克戎已在世界上多个国家和地区流行。相比此前流行的变 " ~ m$ Q! j% T异株,奥密克戎具有大量关键突变,其传播力和隐匿性更强,且存在免疫逃 逸,更容易多点散发或集中暴发。截至 2021-12-08,全球共有 572 w6 E) q- w+ C* j
个国家和地 区报告奥密克戎变异株,截至 2022-01-20,奥密克戎已经波及我国 14 个省。# D/ S6 J7 G4 Y
虽然可以通过区域全员核酸检测的方式快速发现感染者并进行有效隔离。但 是大规模核酸检测成本较高,而且对于经济、生活都会产生较大的影响,使 * m% w8 c3 g5 [3 Y$ b* M, c k" v" H用频率有限。为了解决这个问题,2020 年 8 月,世界卫生组织(WHO)发布 了名为“新冠病毒环境监测的现状(Status of* M8 x$ V# J+ ~6 U0 A* L
environmental surveillance for SARS-CoV-2 ; Q$ d; ~* z" D8 P- o* nvirus)”的科学简报。文中总结了通过市政污水进行新冠病毒监 测的背景、方法和用途,为全球抗击疫情提供了一份指导方案。污水监测是以- B/ f1 b. m; O, b' B/ _0 ^
污水流行病学(Wastewater-Based Epidemiology,WBE)的原理为手段,通过% Z% c2 a @8 ?" p
分析市政污水处理厂进水中的污染物或者生物标记物浓度,结合人体代谢机 理、进水流量和服务人群数量等信息,反推该物质在污水集水区内的状况,这# t* g% q I; l' K
一方法或在未来新冠疫情的大规模防控上发挥重要的作用。 所谓污水流行病学便是基于污水中蕴藏的丰富信息,通过分析污水处理 4 O! G6 Y) ?( W厂进水中的化学物质浓度,根据人体代谢机理、进水流量和服务人口数量估 算该地区人群消费某类化学物质的规律,调查与之相关的疾病、消费、健康等 , m2 ]. U4 F7 n% C9 J: o8 \% W公众信息,从而预防和控制相关疾病,提高公众健康水平的科学。当前正在全 1 球范围内流行的新冠疫情,更是将污水流行病学的应用扩展到对疫情的定性 2 J; S" H3 A) k% |# u2 y8 v- }5 B早期预警、对疾病流行率的定量估计以及疾病突发的定量警报,进一步拓展 了污水流行病学的内涵。该方法有如下几个优点:1、监测的范围大、覆盖面 % H3 L0 Y' M9 f6 e广,可以评估大规模的社区总体的感染情况。市政污水厂通过污水管网承接 了城市千家万户排放的污水,污水集水区域的人口数量少则千人,多则上百 * g+ W7 ~/ ]: j+ U8 S+ u万人,覆盖的人口非常广泛,包括不能及时或者未发现症状而不进行核酸检 测的感染者,因此能够更好的对疫情进行评估和预测。2、可预知病毒社区感 R$ O1 i: o5 U I染的重新爆发。由于污水新冠病毒的检测结果比临床患者出现早,因此会有 预警作用。3、可作为疾病传播动态监测的辅助手段。对卫生监督结果进行有$ W; S# `* S' |7 }- W6 k2 e
效的补充,这一点在中低收入的国家尤为重要。 # i* x# t K$ A. K# A( q 0 H$ K* H/ W7 Z第一阶段问题:9 X' v' Q+ a$ {) v$ l) D* h: G
( p1 G+ H& \- z, W3 N请根据附注网站上的数据,研究美国污水监测采样点的分布是否合理?* x( X2 [# S: A
如果可以增加十个采样点,请建立数学模型,选择最合理的位置设置采 7 y$ _) z8 m7 b" @样点。6 ?2 g* p3 y' a: p" }; m
请对数据进行分析,对于可能出现的大规模疫情进行预警,并给当地的$ Q* ]) n. K6 s( I, i7 P' L
政府写一封信(一或二页),说明对疫情的预判,对情况严重性的估计, ) g H5 ]8 y' y并给出一定的防控建议。 - c8 |' k( x8 J0 \- o4.1,分析 (最简单的一道题)往年经常见,网上质料很多 ' K( x) g1 K. Z }, {+ g) ]3 u, \$ k0 E( F3 e4 T
; \6 x7 k8 e3 D( B$ L, F关联规则分析(Apriori)算法容易理解,能够用简单的if-then规则描述数据之间的完备关系;得出的规则具有可读性;能处理连续和离散的数据数据间可能不存在强规则;由于要查找整个数据库中的所有可能规则,可能会出现组合爆炸问题数据形式规范1 c( m; h1 q1 C) c
第一,自动预测趋势和行为。数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。比如在GOOGLE流感分析案例中预测流感爆发的时间和地点。9 H' c( `! G8 S1 o8 ]4 P' d
; y( b1 C& N8 u; n6 W2 w- X第二,关联分析。数据关联是数据库中存在的一类重要的可被发现的知识,若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析旨在找出具有强相关关系的几个属性。典型案例是啤酒和尿布的关联分析,关联分析经常用在电子商务的产品推荐中。 5 r2 l0 H" y0 }7 h; `" T8 [ ( l- g# \( G4 J, r. e8 I第三,聚类。数据库中的一些相类似的记录可以划归到一起,即聚类。聚类常常帮助人们对事物进行再认识。在社交网络分析中经常用到聚类技术。' p, g- y+ d% D% ^# O9 d. O
& e0 X) ]- p4 X' y, V7 Q
end 6 q( f' l- U0 \' j; X! C' c0 S3 x3 D/ i收藏文章,关注作者,后续会更新更多思路。; _; }! G4 M) R$ b, H& w
最后在此建议大家:选题很重要,切忌中途换题,会越换越乱呦。5 x' b9 L, s' t( E' Q% X' g/ S
————————————————; m& ]5 v* x8 H {
版权声明:本文为CSDN博主「上进小菜猪」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。$ V% z$ R, Z8 r8 g. P, K
原文链接:https://blog.csdn.net/weixin_52908342/article/details/1240298319 E, s( t* S) u2 e! o3 w: S