; L7 S4 c. K$ V1.常见数据处理方法:8 V# V% e6 P" u. |+ S$ v$ ?6 L
针对缺失值,文章使用的是拉格朗日插值法,相较于平均值插值法,更加适用于有时间序列性质的数据,同时插值后的数据属于预测的一部分,文章中的观点是保留小数+ I1 o- V6 Z" Q0 W g* I. m
针对异常值,一种是不符合实际意义的数据,需要通过文献查找进行删除,一方面可以通过箱线图进行判断,也可以使用3σ准则进行判断,3σ准则解释:0 Q6 N$ W8 i! t' o
8 o9 `! [/ K A7 ]5 E2.相关性系数选择 ! M0 t7 \8 v1 D& e" F常见的有三种,皮尔森相关系数,肯德尔相关系数,斯皮尔曼相关系数,知乎解释 ( t' @. v" K" r8 u4 Z + k I$ z5 g5 L" c9 a ] 1 M2 Z% W% s% s! n* y8 }3 _" y) r$ L/ E. [- C' P8 y( i" }
3.聚类算法$ A+ x. S; I1 Y0 ]7 o
文章中主要提到了两类,基于EM的GMM聚类,K-means聚类 5 X1 w. z# `. K% F% E' S9 OK-means聚类算法 % y. {! L" h/ d! [0 J8 r" O% T! wGMM聚类算法: }* b2 b9 |( I; Y. y
$ n. ~! n! @0 A& ]4 F0 p
* R8 J: Y6 n( ~7 R1 `3 j& p; b6 T: |4 E' R$ c. h5 Q* V+ _# k
4.一种数据降维方式 - Q$ v* ]+ S3 _- L$ e# O$ ?论文中提到的将22维的数据进行降维处理,判断降维后的数据是否容易进行聚类,进而推论出高维是否容易聚类,提到的算法是t-SNE t-SNE算法 / E/ e6 Q) f# T% w/ c. W, C 5 D4 L! D$ ^3 e! J5 e3 \ 2 R1 n8 T/ I }+ I, h3 \& y5.预测模型' C5 e( e4 J5 x; d
文中使用的是XGBoost算法,论文中的第三问和第四问都是用的这个算法,使用时候,作者将数据进行纵向合并,数据集划分等操作,同时由于输入的维度过高,达到22维,而输出维度很低,还通过了输入特征与输出值的相关性,将维度进行降低,提出相关性不高的特征,最后图像看起来很好。XGBoost算法讲解 # A- z7 e$ U5 B; d. f* C1 u( E9 P6 }' Z7 |
3 ~; z: O* ?+ n
————————————————5 D4 i& Y8 X7 l
版权声明:本文为CSDN博主「Philo`」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 / k: `- n9 U1 l) X' D- @# Q9 j& h; g原文链接:https://blog.csdn.net/qq_44864833/article/details/126650997 ) u# k1 @; t9 g6 m$ B% p2 B 0 n; j' l: Q! r. L- m! l% Z% h2 g6 e2 n i0 S! q