- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 557842 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 172725
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 18
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
2021年研究生数模B题论文记录) E. a- t T" Q( u3 c: ^
h, |" I$ s2 _
2021年研究生数模B题论文记录
+ B; v$ G, P: m; a( S1.常见数据处理方法:
3 ~9 W2 {- {+ E, j2.相关性系数选择
7 d1 r* |% c3 n$ v* L# v' e& e" E3.聚类算法
9 V/ T. {8 Q6 W. V6 w: H& [4.一种数据降维方式
) a3 c' ?5 N0 c& D5.预测模型6 V: C$ [+ U! m
文章来源 2021年全国大学生研究生数学建模竞赛优秀论文集合,B题,文章编号:B21100130067
7 d4 a3 F1 P8 {% B2 g+ Y1 w# w4 U; r* s: q, W
1.常见数据处理方法:
% R3 b& f* T2 G1 p* {) E针对缺失值,文章使用的是拉格朗日插值法,相较于平均值插值法,更加适用于有时间序列性质的数据,同时插值后的数据属于预测的一部分,文章中的观点是保留小数4 x4 U; a* ?0 I
针对异常值,一种是不符合实际意义的数据,需要通过文献查找进行删除,一方面可以通过箱线图进行判断,也可以使用3σ准则进行判断,3σ准则解释:
1 Q" g$ ~/ \" l2 ~) a; @+ e# C5 G9 I- w6 u v; C
2.相关性系数选择- i |2 G$ D9 K
常见的有三种,皮尔森相关系数,肯德尔相关系数,斯皮尔曼相关系数,知乎解释4 Y7 Z$ Y2 f, S6 o
0 _2 V" M! ?8 `. ^+ O" \
. x' X4 M6 S4 b( U( K
& X. u, H {$ \2 U3.聚类算法
6 ?$ t/ L/ E0 \文章中主要提到了两类,基于EM的GMM聚类,K-means聚类7 a. D. {0 Z8 _& M g
K-means聚类算法
# c; ~, a. I4 M sGMM聚类算法- l6 L, e) }1 _+ O* i( \6 j
! ~% u% E2 o$ r- Z, D/ W
4 a/ T. ^- R# r" F6 B$ }0 ~3 q& n, v
4.一种数据降维方式
; D- U0 f8 b7 B- P1 S论文中提到的将22维的数据进行降维处理,判断降维后的数据是否容易进行聚类,进而推论出高维是否容易聚类,提到的算法是t-SNE t-SNE算法0 {' [7 ^3 x" d I4 o) @
% _; M* R# c. N1 |7 w# r" l2 Z. `0 a2 ?8 D- O( a
5.预测模型
) C& a" P9 W% @; `$ O文中使用的是XGBoost算法,论文中的第三问和第四问都是用的这个算法,使用时候,作者将数据进行纵向合并,数据集划分等操作,同时由于输入的维度过高,达到22维,而输出维度很低,还通过了输入特征与输出值的相关性,将维度进行降低,提出相关性不高的特征,最后图像看起来很好。XGBoost算法讲解+ `( V! Y3 l. C
$ t% Z+ Q& c2 e0 C6 W; O# J
/ a) I% f4 c" y, G5 R0 g5 [
————————————————$ \9 P# J: s: b
版权声明:本文为CSDN博主「Philo`」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
# {4 G" ]5 I: h" \+ s- u原文链接:https://blog.csdn.net/qq_44864833/article/details/126650997
' _. X! N1 S& Q6 `; g
5 t3 i3 L% G' ^; o
8 M, } ^9 y' | d: ] |
zan
|