[建模教程] 新手进阶建模（8）数据的预处理第一部分

[复制链接]

字体大小: 正常放大

2336426014

52 主题	12 听众	676 积分

TA的每日心情

	奋斗 2021-6-27 15:42

签到天数: 27 天

[LV.4]偶尔看看III

版主

国际赛参赛者

群组: 冬令营普通班

群组: Latex研学群

群组: 2018美赛护航培训课程

群组: 2018美赛冲刺培训

群组: 2017科技论文写作

电梯直达

1^#

发表于 2018-7-18 18:01 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

   数据预处理有四个任务，数据清洗、数据集成、数据变换和数据规约。
   本节先讲数据第一个：数据清洗
数据清洗包括1.缺失值处理 2.异常值处理7 N2 _  N( F  _& `9 E  Y
   其中缺失值的处理有3种：不处理（做建模铁定不选），删除(可以考虑)，数据补差（99%的同僚选择）
而补差的方式主要用下面的5类，重点是第五个，插值法
1. 补插均值/中位数/众数
2. 使用固定值
3. 最近邻补插
4. 回归方法
5. 插值法
插值法又包含好多种：（1）拉格朗日插值法（最容易看的懂的，用的人较多，用错的也多）（2）牛顿插值法（3）Hermite插值（4）分段插值（5）样条插值                      （后三种相对用的较少）

（1）拉格朗日插值法（划重点）
      其原理百度就是构建一个多项式，这个多项式很厉害，假如说我们的数据是城市里的银行位置坐标，那这个多项式就是一条过所有银行的公路，所以，当我们要问50km外的银行在哪儿时，我们顺着这条路算就可以算出来。当然，算出来的坐标只是一个近似值。（当给出的已知银行坐标点越多，近似误差越小）。
   关于拉格朗日多项式的构建原理，这里不说了，百度各种解释，这里只说一下它的优缺点：优点就是过程简单，很容易找到插值，而且还是唯一的。缺点也明显，就是当已知的点很多时候，阶数也会很高，所以不适合插那些百十来个数据点的题。处理十来个的还是很好的。（我个人建议还是用牛顿）

（2）牛顿插值法
      相比较与拉格朗日，其优点是当新增加插值点时，得到的拟合函数变化不大。其原理解释还是看百度或者找老师问吧，我的理解就是从第一个插值点开始修路，每修到一个银行就进行一次校正（高阶差商我的理解），然后这样的话插未知点就准一点。所以用的比较多吧也。
   关于其应运代码见附件