- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564700 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174633
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
- K( O: l9 T, z% T+ X- P# K. i
1.机器学习概念及相关术语解释3 N2 {7 w4 x) a* b0 b4 H% H
- c+ \# S* P! T$ T" K/ m/ y, C' U
一丶 机器学习概念& \2 O- I/ w( R& R* J
概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能 ^2 I* w8 S" u) c
0 ?& R; f2 r4 {* g# ~# }+ f9 @
总结: 机器学习模型=数据+算法
! ], ?2 B3 D# u4 F% v1 K h s6 Z z% K! \* p9 u i
如果有新的数据,我们只需要带入到Model中就可以输出预测值
; C6 D6 p( Q. R' Z" r% f
4 }7 v( m' J8 `# r$ t什么不是机器学习?* V E$ ]0 }( C- Z( r
) L5 d* j C; \
比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
' _ | b4 k9 [0 \) j机器学习其实就是需要有一个预测的过程
. C4 O# e' X4 B7 c2 O& V
) J# N, r; F0 P/ j) d机器学习概念补充:$ `, P; s: [* k6 W2 Y
7 @1 u+ z5 [5 Z5 a" m0 y
1.说明: X: 特征或属性 Y:类别标签类或预测的值
6 w8 ~2 y2 n u4 b, g: q; W- ^$ O; |2 F/ `) E3 P M
训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
6 k R' n; H; R, J& c& K模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)
( T) R' o0 ~ ]8 }* [. l5 ~2 `二丶两种学习方式
& V: `* A1 q0 J' ^/ g. J, a基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
' o5 j6 I) Z- b8 ~. G! W$ `基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据$ q" `$ }* i+ c# m4 g
三丶术语
9 t9 U! E: [9 V, ~9 E, Q, o5 _. b+ [' r3.1机器学习分类的几种概念
: Y% `* \. @& I# c9 s: N
, ?. c6 ]* a' S1 \" [监督学习: 训练集数据有类别标记: A; v; s9 l6 c; i, ]; b
无监督学习:训练集数据没有类别标记
0 y8 v% L0 J1 V( @# o半监督学习: 有类别标记的训练集+无标记的训练集4 F* r* x) v8 N8 w M
强化学习: 常见的应用场景包括动态系统以及机器人控制等# R4 p$ W5 m9 p% y6 Y
监督学习:
) {" Y' B3 \1 g$ v0 i# ~8 r% B, e# f8 W5 g# f# X! k- O, n* ?
分类:预测值是否为连续值,不是连续值的预测的话,是分类 G4 R3 |! ^) Q3 L- r# `: _/ b2 z6 l
回归:预测值是连续值的话,是回归
4 t/ H) Y; b! u+ H' w; l5 `非监督学习:
" ?: H0 ^! d( n7 o9 D3 M" G& L' U7 Q9 }1 D5 e
聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类
9 X/ y/ ~7 v! M/ F降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
" x2 t- n- n7 @3 U" A6 P. N– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
: i" A, z% F/ G" p% @半监督学习:
& ?4 z& @; u+ h+ n3 X2 N( y
5 s; U$ e! Z) O; I9 ]6 O5 _3 @1.基于聚类的假设* I0 m# o& b. ^* G& @
–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,& ?7 G( S: x" x, y
此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
; h. \5 [' V7 U- X: B4 T+ ?2.利用所有样本再进行模型训练: u3 R( D5 c" q5 U; g' ~# A3 Y
强化学习:" ~: t( g* j1 u
8 {( v6 p; t& o* Q* z解决连续决策的问题丶围棋丶无人驾驶汽车等问题
5 c4 S. X. |7 U; {1 A3.2机器学习三要素4 u) _) u% h+ H2 V4 h/ d; n1 j
W2 v; y, ^4 l" P+ w" m% ?: K
模型: 决策函数丶条件概率分布2 D8 ]. E& q4 H2 v1 G* Q! S
算法: 解析解和最优解(梯度下降法和牛顿法)+ w; y1 B9 s. d( ^0 d) q5 l- O
策略: (损失函数)评判一个模型的好坏
' A8 @/ ?& e9 `# M9 k4 ?0 [3.3其他
+ R$ z: [& S* J& U3 _9 R9 J
4 d7 V4 ] d" F* Q0 ]% f3 ]# [5 A降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
1 e1 o2 r0 J9 z4 Q抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决0 b( R3 s! e: o9 a( G1 o
交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证
7 }7 \. ~. d) ?# y. V& { p& ^$ X过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂 W5 }# `0 h2 o
欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单" r2 s$ k5 s- n
模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
) |% |( ~% Q" x7 U, E. Q$ m特征向量: 将属性或特征,通常使用向量来进行表示. ^' a$ c* A6 H. F0 [
训练集: 数据集划分的一部分,来用于模型或者算法的训练
) z& g% l/ d _/ R( `6 Y1 G测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏- s9 d2 M; ^& x- n" ~1 p9 j
# q& b, o+ g- n0 F: g6 s6 ^& `: c. p
/ \# h* T/ r2 o0 v9 q四丶分类和回归问题
+ @) Q0 F1 z1 z6 e) u4.1说明$ N ]7 u# v) X& K0 f! U+ q
0 W& ~/ f1 K1 c( _/ p
如果预测值是连续值对应的问题是回归问题
, [. d- w. e8 r" O6 F如果预测值是离散值对应的问题的分类问题. w( _( k/ P/ O3 U, y
4.2类别型变量处理. `1 q/ c1 P8 k
比如天气: 晴天丶阴天丶雨天$ t/ N0 W+ m7 ^5 V( m2 r; }
lable encoder: 标签编码7 a" G; M9 s+ [% e. u8 c, D
# ^8 j7 N0 m2 h6 |; U4 {2 a
晴天丶阴天丶雨天2 I# M2 m+ v4 f
0--------1--------2) T: k, ]( p% v; R
]! o' l; i* h" b
ont-hot encoder: 独热编码(二进制方式)
2 O2 ^, F. x$ ~
$ B/ U# B) U$ p/ u* S晴天 丶 阴天丶 雨天1 x0 W9 Q E! O1 s0 p% V J& ?9 x
1---------0----------0. j/ m+ [' A: G! E
0---------1----------0+ I6 q1 C+ y8 y3 u' u# M% a
0---------0----------1
0 s; C- \; B& ^; t ~3 J9 Q; N4 p" X4 o( L5 J y$ Y5 k+ Q/ F
总结:通常使用label encoder(标签编码)( _/ S& H/ |& I7 G. ]& Q4 q
————————————————
/ O! H$ H2 ?4 ~( h4 @) I; p版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。' Y; @0 u) X/ \9 N& {
原文链接:https://blog.csdn.net/First_____/article/details/126717523
9 P' w: y, u" O$ v9 A6 m* W5 q1 D' j% I: a h
5 [* r+ S& g) `! N; R, M: p- h' G i! K1 {& L! H
|
zan
|