数学建模社区-数学中国
标题:
2021年研究生数模B题论文记录
[打印本页]
作者:
杨利霞
时间:
2022-9-5 16:31
标题:
2021年研究生数模B题论文记录
2021年研究生数模B题论文记录
6 v2 k# U, M/ \* }
( ~" p. r n. Y; b4 l1 S2 Y
2021年研究生数模B题论文记录
" I. }3 E% H$ G$ J( G3 ?! C
1.常见数据处理方法:
. h: @' V& q+ i p! Q9 J" [
2.相关性系数选择
- l* o8 B) t0 C: T$ I
3.聚类算法
& v7 c$ [9 D1 ]' N( A. M
4.一种数据降维方式
$ H" P; E3 @$ W# [+ y2 `! @& {5 [" a
5.预测模型
* Y5 s/ L0 S0 L d
文章来源 2021年全国大学生研究生数学建模竞赛优秀论文集合,B题,文章编号:B21100130067
n' a0 V" D8 t
+ H! \- ]: w: V' K J2 t. {
1.常见数据处理方法:
1 F7 m: i# Y; e8 C6 m* Y& K* M' n
针对缺失值,文章使用的是拉格朗日插值法,相较于平均值插值法,更加适用于有时间序列性质的数据,同时插值后的数据属于预测的一部分,文章中的观点是保留小数
3 D, `; Y$ E% z1 K7 F
针对异常值,一种是不符合实际意义的数据,需要通过文献查找进行删除,一方面可以通过箱线图进行判断,也可以使用3σ准则进行判断,3σ准则解释:
+ T/ m7 f0 C8 b# @
# }" e7 I4 }- ?
2.相关性系数选择
7 v3 R& E, Y) `
常见的有三种,皮尔森相关系数,肯德尔相关系数,斯皮尔曼相关系数,知乎解释
- N5 r+ k* M0 X& j# t
- I1 q) `9 Q5 y" k; D! {
# [. K& Y$ V+ z( i* [. m K
' t7 _, Z1 o. Z9 v }5 a( {
3.聚类算法
# w4 N, g7 \) f1 V" p
文章中主要提到了两类,基于EM的GMM聚类,K-means聚类
) w# Q3 U4 a s2 w8 L
K-means聚类算法
9 g$ r+ j' g# r# p- \
GMM聚类算法
& m n$ J( p8 k2 u
; [7 @0 l9 @- Y+ O0 ]! {
/ v. B: {! m% c$ O0 E8 T' y" |& n+ L
' V% n3 |6 H+ P5 m! n: r. f
4.一种数据降维方式
0 |- b8 D' g4 i2 v. ~. J4 p
论文中提到的将22维的数据进行降维处理,判断降维后的数据是否容易进行聚类,进而推论出高维是否容易聚类,提到的算法是t-SNE t-SNE算法
: a% e) ~4 B3 D/ r# P# P
5 b! |7 u7 ]- J/ J+ o
; a2 U; \( s+ |" g4 R
5.预测模型
3 F2 o7 `% i7 K. d7 m) o
文中使用的是XGBoost算法,论文中的第三问和第四问都是用的这个算法,使用时候,作者将数据进行纵向合并,数据集划分等操作,同时由于输入的维度过高,达到22维,而输出维度很低,还通过了输入特征与输出值的相关性,将维度进行降低,提出相关性不高的特征,最后图像看起来很好。XGBoost算法讲解
7 \1 M& U8 H" z
8 ~( V/ O; o% G' `7 t- T
- k1 l' P+ n" u
————————————————
, L( l* x& I( V; ?6 W% f9 {2 g
版权声明:本文为CSDN博主「Philo`」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
5 z3 S5 J. V9 _. Z7 Q
原文链接:https://blog.csdn.net/qq_44864833/article/details/126650997
. m$ |* r, m- x" ~& x# k
, V+ l! p7 P( J: P
4 X/ b3 k% w& x
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5