- 在线时间
- 67 小时
- 最后登录
- 2021-7-19
- 注册时间
- 2017-9-1
- 听众数
- 12
- 收听数
- 1
- 能力
- 0 分
- 体力
- 2062 点
- 威望
- 0 点
- 阅读权限
- 200
- 积分
- 676
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 110
- 主题
- 52
- 精华
- 0
- 分享
- 0
- 好友
- 13
TA的每日心情 | 奋斗 2021-6-27 15:42 |
|---|
签到天数: 27 天 [LV.4]偶尔看看III 版主 国际赛参赛者
TA的关系
 群组: 冬令营普通班 群组: Latex研学群 群组: 2018美赛护航培训课程 群组: 2018美赛冲刺培训 群组: 2017科技论文写作 |
数据预处理有四个任务,数据清洗、数据集成、数据 变换和数据规约。
! g; Q1 G/ t- _) `+ m7 [ 本节先讲数据第一个:数据清洗
' R/ Z" y# Y6 G _9 P数据清洗包括1.缺失值处理 2.异常值处理3 F" F- }; s+ _7 Y9 N0 l
其中缺失值的处理有3种:不处理(做建模铁定不选),删除(可以考虑),数据补差(99%的同僚选择)
- e! s4 q; P) {5 N; t- r6 a而补差的方式主要用下面的5类,重点是第五个,插值法' S( Y9 }; [$ ~6 @8 v: g x! s( ^
1. 补插均值/中位数/众数
2 J: L5 v8 D" C+ d 2. 使用固定值 0 q# M$ H7 E: y) r7 S. T( O9 l) H7 |
3. 最近邻补插
4 }6 h& o, |$ @4 U( ?' s+ _ l1 ]2 } 4. 回归方法 . X. _4 f1 |3 l2 w0 ? \% E" G
5. 插值法
; M; e9 @; j l7 ?9 m! d插值法又包含好多种:(1)拉格朗日插值法(最容易看的懂的,用的人较多,用错的也多)(2)牛顿插值法(3)Hermite插值 (4)分段插值 (5)样条插值 (后三种相对用的较少)# ?. z, y: a) ]
* Z; `. ?3 s: u w6 _
A) a9 @4 A: G+ i9 x- b3 g3 a) H
(1)拉格朗日插值法(划重点)5 D" V& e7 q u4 w9 a
其原理百度就是构建一个多项式,这个多项式很厉害,假如说我们的数据是城市里的银行位置坐标,那这个多项式就是一条过所有银行的公路,所以,当我们要问50km外的银行在哪儿时,我们顺着这条路算就可以算出来。当然,算出来的坐标只是一个近似值。(当给出的已知银行坐标点越多,近似误差越小)。
9 F+ q% v/ P" f; H+ t; T$ d 关于拉格朗日多项式的构建原理,这里不说了,百度各种解释,这里只说一下它的优缺点:优点就是过程简单,很容易找到插值,而且还是唯一的。缺点也明显,就是当已知的点很多时候,阶数也会很高,所以不适合插那些百十来个数据点的题。处理十来个的还是很好的。(我个人建议还是用牛顿)
! O! `0 O" B. l U3 F H
3 p1 S$ _7 {, C A4 V0 B# _9 k(2)牛顿插值法
- ]7 f' ^7 l* Q: B8 Y: X8 C 相比较与拉格朗日,其优点是当新增加插值点时,得到的拟合函数变化不大。其原理解释还是看百度或者找老师问吧,我的理解就是从第一个插值点开始修路,每修到一个银行就进行一次校正(高阶差商我的理解),然后这样的话插未知点就准一点。所以用的比较多吧也。
& p2 g8 ]* u' Y6 T 关于其应运代码见附件6 J7 t E/ z `* {& k
- r7 s6 U( Z% M1 y! ?/ M7 a; c* u b! {6 I/ o' U
|
zan
|