数学建模社区-数学中国

标题: 1.机器学习概念及相关术语解释 [打印本页]

作者: 杨利霞    时间: 2022-9-8 10:23
标题: 1.机器学习概念及相关术语解释

4 J* ]: X1 A' p* y2 q; O
1.机器学习概念及相关术语解释! L0 R; `  L( \- a  r% W

( D) b9 r% p0 i5 A. k7 _  j一丶 机器学习概念& K* l; A1 Y9 e7 W; n1 A) H/ [
概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能3 \( c8 L, ~) Y- @/ K

9 f: U/ E( p4 z" j- x1 D4 _' N总结: 机器学习模型=数据+算法& S: @+ S& y9 p, L; u& c- p
( c; Y* t2 E% d$ q5 M5 E
如果有新的数据,我们只需要带入到Model中就可以输出预测值' T- |' b6 [( N5 z4 A+ K7 N

0 I, N( Z3 J6 o7 t什么不是机器学习?/ |  |0 R/ n+ A$ `
& l6 t9 }( {: p6 j% g- r
比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)7 l* R  L3 s# K2 ]
机器学习其实就是需要有一个预测的过程& M$ |+ A# q) h  p0 a$ g- }. \. w

0 C+ N1 G% Z0 `( q& u- R" n机器学习概念补充:' m, V8 J  b6 V# V( f; w! M( n

$ `( Z' k, q: U$ s2 u3 t1.说明: X: 特征或属性 Y:类别标签类或预测的值7 h) h3 c! X* G' j( {

2 ?$ r" R6 E7 J训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.+ m) \% p  K1 P$ W
模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)
! b2 b, H* s3 o二丶两种学习方式1 \2 N$ R2 `$ w  k$ W& h3 X8 g
基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可6 Y' S5 }8 _& j
基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据6 y; G$ V* N/ g
三丶术语
4 t2 ?) p  f1 f" J3.1机器学习分类的几种概念
- m! j5 k1 Q9 R% n0 o, `7 X
( g! l5 K8 |4 @/ P* @监督学习: 训练集数据有类别标记+ x4 h" H; ^+ d9 D; J
无监督学习:训练集数据没有类别标记
9 F# H8 w+ O8 a: Y/ }半监督学习: 有类别标记的训练集+无标记的训练集
3 k+ B$ G/ \8 S( L3 q; a2 Z强化学习: 常见的应用场景包括动态系统以及机器人控制等" D8 l* L  k; x/ o; Z# E
监督学习:; f; N$ k: F% j

) u) K( `9 p- j! V/ V分类:预测值是否为连续值,不是连续值的预测的话,是分类
; D) ?  ^" W4 f6 F* q# ~+ ~5 d6 n回归:预测值是连续值的话,是回归) J- e& Y- c  ]% ^7 Y0 l
非监督学习:# ~% e: P# q; T' Y

9 P+ T7 ~1 E3 @( G聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类  A/ Z' N/ Q- j3 L. q9 \  ]! U
降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
' ?' I; E" a$ f0 d  O3 L; b& m+ N– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z24 U$ _( z2 ?; m4 p, T1 L. y
半监督学习:
+ ]' D3 g+ [7 N4 f/ l+ y- E
5 y8 [& @+ |; f; v& x! ~8 r1.基于聚类的假设
0 ^, [5 Z! l5 J% e+ h# Q–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,0 g2 q% S  h+ ^1 ~9 k5 D  S7 W. W
此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
2 \, K$ C. q- C8 N6 J2.利用所有样本再进行模型训练
$ u; U) u% X3 N, P强化学习:) L  E2 b2 A+ |/ e$ p( f* a( _

* F" s+ D: _5 t( `' `4 L解决连续决策的问题丶围棋丶无人驾驶汽车等问题9 p( A1 Y& ^! A; @4 q& o7 H
3.2机器学习三要素
9 d0 w# F9 U' P( q! X. r- e% Q4 O9 j$ u: d% L
模型: 决策函数丶条件概率分布! U& K* S. @: `( ?5 L
算法: 解析解和最优解(梯度下降法和牛顿法)% C' b' L9 ], v4 y
策略: (损失函数)评判一个模型的好坏2 q- C6 S4 T! c3 `
3.3其他- a9 ~  `& i9 X" N/ p
$ ?$ E0 S4 ^. `, g
降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
2 `" {. i$ A6 g& [! U4 D抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决) {& R- \' V' f; A; ?  R2 w
交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证
+ C8 d$ F2 e. f; M. z: f( y# I过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂# l2 c) G$ @+ d1 D
欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
9 R" Q, b: t8 q6 e( Y模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
. M) W; }9 S- q; D- M$ X9 L- H特征向量: 将属性或特征,通常使用向量来进行表示
# d3 L) S5 i2 t8 o, S# a* I训练集: 数据集划分的一部分,来用于模型或者算法的训练$ Q9 I5 M3 d, O( A1 V6 a
测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏3 b* a& F* R9 [1 }

2 D2 z! m  k' R! v  j& ?& M: E& L. O" Z# J" A0 b
四丶分类和回归问题
# F7 f! }8 i, S& P/ ~4.1说明
6 d8 g' ?/ R3 G+ o4 B# _  k: S9 \8 C  F+ c% F
如果预测值是连续值对应的问题是回归问题
) Q' l! |& z  }6 P& L/ l4 E如果预测值是离散值对应的问题的分类问题
: ~/ y: ?8 y; E2 ~2 z$ D& d4.2类别型变量处理
2 P& d1 B, c5 g* I& a6 u# A比如天气: 晴天丶阴天丶雨天5 }7 m) H# ]& d5 u3 e9 V
lable encoder: 标签编码
& m- V0 V& G& {5 F5 y: P
9 {* {9 ]7 _! ~9 z晴天丶阴天丶雨天* T( S" ~1 W8 s8 y* r! A1 I2 a- r4 Z
0--------1--------2
* d  o( s, s9 l4 ^8 d  Z7 K2 n6 g8 W) l
ont-hot encoder: 独热编码(二进制方式)" ^5 E+ X9 Q8 j8 W( K; h4 c3 z/ N6 G

8 @( J$ @0 `, ^! r- ^晴天 丶 阴天丶 雨天
% q7 u' ~& X; B( S1---------0----------04 R; ?% H/ _" d1 M( B
0---------1----------0# z' ^' Y/ q0 E
0---------0----------1# ~  j. I& D- V% i' ?/ h+ j

" p; D& f5 J2 s/ `总结:通常使用label encoder(标签编码)
% R; U; X5 w' p9 @- Z( d5 A————————————————
5 C; Z1 |4 W6 a版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
/ m( Q! B# Z8 `- I原文链接:https://blog.csdn.net/First_____/article/details/1267175231 B+ F" I( u5 T: `) Y/ Z
& o) L7 k8 W: l0 Y; p
2 l5 y8 t  Y. e" B$ y# x* n

( n3 y, t% h8 S+ f6 w# l




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5