数据预处理有四个任务,数据清洗、数据集成、数据 变换和数据规约。 : g- `( }9 T. g2 ]8 T5 ? 本节先讲数据第一个:数据清洗7 j' l0 N1 P& p$ |; R
数据清洗包括1.缺失值处理 2.异常值处理) z/ Y4 d) G6 L1 M+ g4 w 其中缺失值的处理有3种:不处理(做建模铁定不选),删除(可以考虑),数据补差(99%的同僚选择) 4 a) h: \. C1 \" V/ N6 r0 V0 S而补差的方式主要用下面的5类,重点是第五个,插值法 ' ]% U7 \, U; f2 K 1. 补插均值/中位数/众数 4 X" e' E% ]4 z' K2 a$ z
2. 使用固定值 9 B4 Y, M9 |: C A5 H" F& |$ C: n) m+ ^
3. 最近邻补插 / b* _4 s# J) L: H1 F& C, y- N
4. 回归方法 ) x# [* B) ]- d9 U8 V7 p 5. 插值法 3 q! J$ l! [9 i0 [% Y$ w- A, c. t0 g
插值法又包含好多种:(1)拉格朗日插值法(最容易看的懂的,用的人较多,用错的也多)(2)牛顿插值法(3)Hermite插值 (4)分段插值 (5)样条插值 (后三种相对用的较少) * d( `/ L. P& { % N$ H: |, ^$ c B3 R2 h9 W
' O( e9 w6 q' I- r1 a(1)拉格朗日插值法(划重点)4 T# l$ |" L/ g9 F S6 O
其原理百度就是构建一个多项式,这个多项式很厉害,假如说我们的数据是城市里的银行位置坐标,那这个多项式就是一条过所有银行的公路,所以,当我们要问50km外的银行在哪儿时,我们顺着这条路算就可以算出来。当然,算出来的坐标只是一个近似值。(当给出的已知银行坐标点越多,近似误差越小)。 ; Z ?0 W$ J6 f' g$ [7 n 关于拉格朗日多项式的构建原理,这里不说了,百度各种解释,这里只说一下它的优缺点:优点就是过程简单,很容易找到插值,而且还是唯一的。缺点也明显,就是当已知的点很多时候,阶数也会很高,所以不适合插那些百十来个数据点的题。处理十来个的还是很好的。(我个人建议还是用牛顿)6 B) D" F3 z4 c' x: K; u1 s% p8 Z
: |$ Z/ B; G2 j. m* s' _(2)牛顿插值法 ' E% p7 A/ L5 C2 o5 ~9 B% ]" k 相比较与拉格朗日,其优点是当新增加插值点时,得到的拟合函数变化不大。其原理解释还是看百度或者找老师问吧,我的理解就是从第一个插值点开始修路,每修到一个银行就进行一次校正(高阶差商我的理解),然后这样的话插未知点就准一点。所以用的比较多吧也。 # M3 i0 g' D/ b 关于其应运代码见附件 2 G: F; {# K$ n. a9 m( k* G3 ^, x : N( w" O6 H, E: } ]* ~. z; F4 F8 d# w/ U