数学建模社区-数学中国
标题:
1.机器学习概念及相关术语解释
[打印本页]
作者:
杨利霞
时间:
2022-9-8 10:23
标题:
1.机器学习概念及相关术语解释
2 N7 Y0 [* S# d
1.机器学习概念及相关术语解释
6 F: ~$ s6 K6 z0 Z# N! A
8 d6 o0 Q" [) h6 o
一丶 机器学习概念
6 f" _% q2 N! U. M
概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能
+ x( \& M5 ]: `* T* @ q, c
, v" o+ O8 b1 S
总结: 机器学习模型=数据+算法
4 o/ y! E4 r/ L% o! P
! |1 _( r2 R) A& p
如果有新的数据,我们只需要带入到Model中就可以输出预测值
# f" U9 Z$ f1 F
2 Q; n) n% m7 t
什么不是机器学习?
- Y3 }+ O! I \; q: p
9 |( g! t) Z9 m4 ]* |
比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
3 M2 _3 P5 t! C+ q
机器学习其实就是需要有一个预测的过程
0 Q) @" R1 `. q9 V
. c3 ]5 ^. d ]+ P
机器学习概念补充:
' Z: ?5 T/ P4 y6 P2 o
+ f; Q- ^2 n9 y& }
1.说明: X: 特征或属性 Y:类别标签类或预测的值
( G3 C$ }8 @- W% }) E. ^. }, M' x( u
% N# |! [5 l7 c) O! W: r& ?
训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
+ h# s& T# n5 h3 O% _
模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)
8 g, _& p( c( e U
二丶两种学习方式
$ w3 k# P8 o* z3 \' W# I# X
基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
8 d9 n, a _0 }7 Q& u
基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据
+ T# F& u- U7 E) l2 [7 o$ |' @7 c
三丶术语
! q8 T% z. }" z
3.1机器学习分类的几种概念
' h# t& q C* K$ `6 J. y
* H5 z' D6 E: Q5 |0 C7 v4 v
监督学习: 训练集数据有类别标记
# d9 o2 F: M' {+ e
无监督学习:训练集数据没有类别标记
, l+ R$ r7 ?+ x: R. |6 y
半监督学习: 有类别标记的训练集+无标记的训练集
/ ~# d4 l4 T6 u! f) B) f8 v
强化学习: 常见的应用场景包括动态系统以及机器人控制等
2 z- _& G* v1 W$ D/ b
监督学习:
/ M& v" Q- ? ?- ?$ |5 K: m
+ W; e1 e* ^- d2 V4 ?
分类:预测值是否为连续值,不是连续值的预测的话,是分类
6 E' n7 p$ i3 J1 A
回归:预测值是连续值的话,是回归
1 ]* Q1 E% ]8 R/ Y
非监督学习:
5 w6 m) x" B2 o9 N* D3 y
, Y, U" x- F2 I7 X) h6 _' A
聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类
/ m$ c4 X* c' f8 v) F7 R
降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
/ o% r, Q' L' ?2 l- D
– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
' V& p5 O' h! J, @/ @0 Z6 L/ W4 Y
半监督学习:
- \1 r, R1 ~; W8 B8 N/ \4 i& U
4 G( j7 l Q, T+ f% j p7 P
1.基于聚类的假设
1 ?1 J1 \1 {' Q3 D$ @+ W; A" n
–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
* A: X4 c& _, @9 x
此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
. [: m/ H$ e- x2 R/ Q
2.利用所有样本再进行模型训练
, e( |% Q1 z, V) W
强化学习:
, \, \- I/ |: }0 v* `5 h
3 { j& K* H9 M) @; L4 f, D
解决连续决策的问题丶围棋丶无人驾驶汽车等问题
+ P1 [* z+ A$ G5 E5 U6 V: g$ M: N* [
3.2机器学习三要素
# t# B. B+ ~, }4 C
3 p1 K* A. g5 Q6 q0 d
模型: 决策函数丶条件概率分布
5 k+ Q- A' G. C# ]4 D. g
算法: 解析解和最优解(梯度下降法和牛顿法)
0 G, ~6 k$ s$ z- Y: |: a
策略: (损失函数)评判一个模型的好坏
3 t+ t/ Z5 f& n8 w0 C& A
3.3其他
: W3 k0 G5 w1 l
, M4 v. q: `2 \* j+ v1 x
降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
5 i% @; C% E# `% ~1 Z
抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
" A4 P2 Z F8 I4 \
交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证
6 b7 l& n/ j1 o
过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂
9 }' K/ _: y4 K# A; X Q/ J
欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
" j- U5 C9 o: F# n# @4 ^7 d
模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
$ A1 d0 D% N8 S& Q/ r7 |8 j1 ?3 z. v
特征向量: 将属性或特征,通常使用向量来进行表示
# E$ s* D2 v: t) ]
训练集: 数据集划分的一部分,来用于模型或者算法的训练
" U# q! S" z, J: I5 C
测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
6 o9 D# { s$ P2 q" z! A$ x. G( ` V
' S* l& g# p' b! x0 D- b5 T' E4 l
! b# `4 [5 R* t" L) ~
四丶分类和回归问题
: u* w) c/ N* E& V! ~5 Y
4.1说明
, g8 c5 M# D$ Z* ^; k
7 n W* ]) T& y. O8 c7 r& V
如果预测值是连续值对应的问题是回归问题
8 W K0 f4 \5 i8 J' e7 [+ P+ s/ ~
如果预测值是离散值对应的问题的分类问题
6 f9 b9 H# }- R! L3 w0 x$ E
4.2类别型变量处理
) ]- L6 f' p5 {8 H. d
比如天气: 晴天丶阴天丶雨天
: W7 [7 |: h7 |! ]5 P) ]' ^# c. T
lable encoder: 标签编码
9 m) Y3 W' [: Z/ H& l" j3 Q
# o' z9 n/ S( I7 x: ~
晴天丶阴天丶雨天
$ a) ~- ?( L: V% [
0--------1--------2
! J1 H( i3 T Q2 C0 i
+ I0 C, a$ S4 l' ?: r! s' A
ont-hot encoder: 独热编码(二进制方式)
5 Y8 Y; J6 b2 C9 r6 U4 _" |' ~
$ f, L; E- K6 G4 i8 @
晴天 丶 阴天丶 雨天
- P3 v% @$ c I- z$ ?2 H; N6 M
1---------0----------0
5 P3 T0 I7 R! _" K, g
0---------1----------0
+ F5 M+ |) N9 f/ L: ?6 |5 |
0---------0----------1
1 [+ w7 [- Z' {! Q6 \! T
7 {7 }) _4 p7 T
总结:通常使用label encoder(标签编码)
; U, T; A* n* {1 I6 s, ]! w
————————————————
" E; q+ e. r. P1 W3 N4 h u
版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
4 W; `, k0 ]- }4 |
原文链接:https://blog.csdn.net/First_____/article/details/126717523
/ P) ^4 x: K; y1 {5 `- F" P
# `( x, X' V# y5 m7 V# f9 N
4 @5 y8 i' \2 I: \
4 a) a+ P9 D0 E. \
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5