数学建模社区-数学中国
标题:
1.机器学习概念及相关术语解释
[打印本页]
作者:
杨利霞
时间:
2022-9-8 10:23
标题:
1.机器学习概念及相关术语解释
4 J* ]: X1 A' p* y2 q; O
1.机器学习概念及相关术语解释
! L0 R; ` L( \- a r% W
( D) b9 r% p0 i5 A. k7 _ j
一丶 机器学习概念
& K* l; A1 Y9 e7 W; n1 A) H/ [
概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能
3 \( c8 L, ~) Y- @/ K
9 f: U/ E( p4 z" j- x1 D4 _' N
总结: 机器学习模型=数据+算法
& S: @+ S& y9 p, L; u& c- p
( c; Y* t2 E% d$ q5 M5 E
如果有新的数据,我们只需要带入到Model中就可以输出预测值
' T- |' b6 [( N5 z4 A+ K7 N
0 I, N( Z3 J6 o7 t
什么不是机器学习?
/ | |0 R/ n+ A$ `
& l6 t9 }( {: p6 j% g- r
比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
7 l* R L3 s# K2 ]
机器学习其实就是需要有一个预测的过程
& M$ |+ A# q) h p0 a$ g- }. \. w
0 C+ N1 G% Z0 `( q& u- R" n
机器学习概念补充:
' m, V8 J b6 V# V( f; w! M( n
$ `( Z' k, q: U$ s2 u3 t
1.说明: X: 特征或属性 Y:类别标签类或预测的值
7 h) h3 c! X* G' j( {
2 ?$ r" R6 E7 J
训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
+ m) \% p K1 P$ W
模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)
! b2 b, H* s3 o
二丶两种学习方式
1 \2 N$ R2 `$ w k$ W& h3 X8 g
基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
6 Y' S5 }8 _& j
基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据
6 y; G$ V* N/ g
三丶术语
4 t2 ?) p f1 f" J
3.1机器学习分类的几种概念
- m! j5 k1 Q9 R% n0 o, `7 X
( g! l5 K8 |4 @/ P* @
监督学习: 训练集数据有类别标记
+ x4 h" H; ^+ d9 D; J
无监督学习:训练集数据没有类别标记
9 F# H8 w+ O8 a: Y/ }
半监督学习: 有类别标记的训练集+无标记的训练集
3 k+ B$ G/ \8 S( L3 q; a2 Z
强化学习: 常见的应用场景包括动态系统以及机器人控制等
" D8 l* L k; x/ o; Z# E
监督学习:
; f; N$ k: F% j
) u) K( `9 p- j! V/ V
分类:预测值是否为连续值,不是连续值的预测的话,是分类
; D) ? ^" W4 f6 F* q# ~+ ~5 d6 n
回归:预测值是连续值的话,是回归
) J- e& Y- c ]% ^7 Y0 l
非监督学习:
# ~% e: P# q; T' Y
9 P+ T7 ~1 E3 @( G
聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类
A/ Z' N/ Q- j3 L. q9 \ ]! U
降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
' ?' I; E" a$ f0 d O3 L; b& m+ N
– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
4 U$ _( z2 ?; m4 p, T1 L. y
半监督学习:
+ ]' D3 g+ [7 N4 f/ l+ y- E
5 y8 [& @+ |; f; v& x! ~8 r
1.基于聚类的假设
0 ^, [5 Z! l5 J% e+ h# Q
–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
0 g2 q% S h+ ^1 ~9 k5 D S7 W. W
此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
2 \, K$ C. q- C8 N6 J
2.利用所有样本再进行模型训练
$ u; U) u% X3 N, P
强化学习:
) L E2 b2 A+ |/ e$ p( f* a( _
* F" s+ D: _5 t( `' `4 L
解决连续决策的问题丶围棋丶无人驾驶汽车等问题
9 p( A1 Y& ^! A; @4 q& o7 H
3.2机器学习三要素
9 d0 w# F9 U' P( q! X
. r- e% Q4 O9 j$ u: d% L
模型: 决策函数丶条件概率分布
! U& K* S. @: `( ?5 L
算法: 解析解和最优解(梯度下降法和牛顿法)
% C' b' L9 ], v4 y
策略: (损失函数)评判一个模型的好坏
2 q- C6 S4 T! c3 `
3.3其他
- a9 ~ `& i9 X" N/ p
$ ?$ E0 S4 ^. `, g
降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
2 `" {. i$ A6 g& [! U4 D
抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
) {& R- \' V' f; A; ? R2 w
交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证
+ C8 d$ F2 e. f; M. z: f( y# I
过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂
# l2 c) G$ @+ d1 D
欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
9 R" Q, b: t8 q6 e( Y
模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
. M) W; }9 S- q; D- M$ X9 L- H
特征向量: 将属性或特征,通常使用向量来进行表示
# d3 L) S5 i2 t8 o, S# a* I
训练集: 数据集划分的一部分,来用于模型或者算法的训练
$ Q9 I5 M3 d, O( A1 V6 a
测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
3 b* a& F* R9 [1 }
2 D2 z! m k' R! v j& ?& M
: E& L. O" Z# J" A0 b
四丶分类和回归问题
# F7 f! }8 i, S& P/ ~
4.1说明
6 d8 g' ?/ R3 G+ o4 B# _ k
: S9 \8 C F+ c% F
如果预测值是连续值对应的问题是回归问题
) Q' l! |& z }6 P& L/ l4 E
如果预测值是离散值对应的问题的分类问题
: ~/ y: ?8 y; E2 ~2 z$ D& d
4.2类别型变量处理
2 P& d1 B, c5 g* I& a6 u# A
比如天气: 晴天丶阴天丶雨天
5 }7 m) H# ]& d5 u3 e9 V
lable encoder: 标签编码
& m- V0 V& G& {5 F5 y: P
9 {* {9 ]7 _! ~9 z
晴天丶阴天丶雨天
* T( S" ~1 W8 s8 y* r! A1 I2 a- r4 Z
0--------1--------2
* d o( s, s9 l4 ^
8 d Z7 K2 n6 g8 W) l
ont-hot encoder: 独热编码(二进制方式)
" ^5 E+ X9 Q8 j8 W( K; h4 c3 z/ N6 G
8 @( J$ @0 `, ^! r- ^
晴天 丶 阴天丶 雨天
% q7 u' ~& X; B( S
1---------0----------0
4 R; ?% H/ _" d1 M( B
0---------1----------0
# z' ^' Y/ q0 E
0---------0----------1
# ~ j. I& D- V% i' ?/ h+ j
" p; D& f5 J2 s/ `
总结:通常使用label encoder(标签编码)
% R; U; X5 w' p9 @- Z( d5 A
————————————————
5 C; Z1 |4 W6 a
版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
/ m( Q! B# Z8 `- I
原文链接:https://blog.csdn.net/First_____/article/details/126717523
1 B+ F" I( u5 T: `) Y/ Z
& o) L7 k8 W: l0 Y; p
2 l5 y8 t Y. e" B$ y# x* n
( n3 y, t% h8 S+ f6 w# l
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5