- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563260 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174201
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
3 J* m# Q; E* B9 H
1.机器学习概念及相关术语解释
& F1 F: S% {- N
, h% `* r+ r" Y9 E一丶 机器学习概念* a( ?% F* \9 \
概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能) ?/ o: |7 K6 s' r1 c. ?
# w5 e9 [. h, l' [总结: 机器学习模型=数据+算法: m, E/ Q8 G/ D' R! k, e
: n* H( ]4 Q8 U# n% G( R如果有新的数据,我们只需要带入到Model中就可以输出预测值
1 D/ }; G/ ?" l7 o- D1 a. D! t% q$ E* _: G& o* H4 R' \
什么不是机器学习?* `( t( z% e* ?" J) p C
6 `, ?! I/ k7 J4 y! J: r4 m+ ^
比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)& _) |/ G9 _# c; _& H
机器学习其实就是需要有一个预测的过程
2 U; T. R; z# A& F/ k0 U
( @0 [9 F* L7 z$ }% b机器学习概念补充:$ l" a+ `+ E o' U3 j4 ~. v3 `4 p
. o+ H+ u! C& w Z0 V) p. F
1.说明: X: 特征或属性 Y:类别标签类或预测的值
' M# ?2 K( r+ H* e7 } N9 C" |9 |" W8 r/ r9 ^
训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.) X# _# z: ^7 q, U
模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率). @- R, q' d5 s! h
二丶两种学习方式
8 _% [5 t8 P6 n0 @# ^+ C$ X6 x基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可& k- @' b7 |/ F {7 k+ l+ h
基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据
) o0 q% S) `6 r! w6 w+ L6 p' B三丶术语
1 B! i- i7 {+ S: E1 |8 E. ~3.1机器学习分类的几种概念( R7 G2 `# c* ]$ o. i, V3 a: \
. b' ]! N8 D4 }5 u# ]1 N/ s监督学习: 训练集数据有类别标记
! \+ d1 y- f7 n, W( v无监督学习:训练集数据没有类别标记
4 e8 [; V/ U( P& ^3 o% k# \半监督学习: 有类别标记的训练集+无标记的训练集
+ O3 V9 t- s; Q. H' ~- H6 Y/ P4 i+ C强化学习: 常见的应用场景包括动态系统以及机器人控制等
; [ Q/ [7 s7 W2 ?% E% z+ @监督学习:' P! e5 z3 a4 H3 F' }' B# }
3 C0 Y6 Y% R7 U1 L' h' x
分类:预测值是否为连续值,不是连续值的预测的话,是分类0 b# d) h ]. [9 z& v
回归:预测值是连续值的话,是回归4 u$ D) p( c0 R( k$ }2 c- \ ]
非监督学习:) w1 d/ |0 ?: v u* g& ~
" a0 m+ e1 M6 `7 M聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类
- G( R0 \( U6 i% _' ?$ ~# w4 j降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的& c* X" H6 u z7 S% J( \
– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
8 ^; p. C8 ?2 x8 j1 ?半监督学习:
0 [- c: O- W* B3 p J' D: O0 O; z8 A& P; [- ^
1.基于聚类的假设3 G* J/ i2 Z( s Z! I' _+ x* E
–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,0 E/ J, H7 ~7 T6 `& |( C. \& t
此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签& y; \* v5 v7 s* d1 X$ E
2.利用所有样本再进行模型训练
: p9 c/ T# s) A; m( _5 R6 q# L强化学习:' h0 C; @( f1 t+ V" a* y j6 M
1 O- e4 l) W" f& `+ K5 T解决连续决策的问题丶围棋丶无人驾驶汽车等问题$ t: p2 |6 a+ U5 v( s' W) i
3.2机器学习三要素
( d9 z9 v6 n% @6 n! Q1 ~: _2 W! i: G9 J
模型: 决策函数丶条件概率分布
8 I7 p4 t8 E& e& F) ~% e8 A算法: 解析解和最优解(梯度下降法和牛顿法)1 ~$ q$ a4 Q/ Y* ~- E
策略: (损失函数)评判一个模型的好坏8 ^$ I* B/ ?" `# q3 i
3.3其他, R& [( U' n; }" ^- A2 E
5 l4 ~* j- R% f' a8 @4 m& g降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
, G6 {" l( H* @抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
3 {6 V( T, D: M9 ^2 O- a交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证
0 f/ |5 {, E9 f3 w过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂
6 }1 i" Y9 }* D1 [# j3 ]8 x欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
( X6 c' i0 D& W2 \7 w; g8 X3 }+ V3 M2 |5 C模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
1 V7 ~5 a7 K F+ f5 G) u& z1 ~( Q特征向量: 将属性或特征,通常使用向量来进行表示
+ S& a8 s, b/ s$ S! I. N训练集: 数据集划分的一部分,来用于模型或者算法的训练7 s, A7 q$ | Q6 ~+ `) \# t
测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
2 N9 E, [8 ^' [! I9 R4 ?
! `$ ^1 A( p% F* L* |! s2 Z4 E- A/ {3 Y S; ?& z% L
四丶分类和回归问题& r! q- U4 R) J( H1 F
4.1说明! H8 t$ k& Z; b9 \
8 p% t% Q! H. x3 W, o如果预测值是连续值对应的问题是回归问题
3 M6 `5 E# |7 ^; m3 l如果预测值是离散值对应的问题的分类问题* Z- ~0 V/ r) o- b5 }, S" ~: w
4.2类别型变量处理$ V) K/ l x0 T* }
比如天气: 晴天丶阴天丶雨天, N. m& r# ~- |1 P$ A3 o" R
lable encoder: 标签编码 p5 u! q' ^1 {
E4 \6 h/ _6 h* d' }; |
晴天丶阴天丶雨天; N" N. @, U( ?; l" k
0--------1--------2
9 a0 v! B: P" q( G$ [9 s+ l( N8 H% K9 p
ont-hot encoder: 独热编码(二进制方式)) Q! m$ |& j8 Y: `" O+ E+ m v
) m* H# I. ^8 B晴天 丶 阴天丶 雨天2 i4 m9 w5 Q2 x9 `: D. m' I
1---------0----------0& u* z) {" E1 s2 D- w; A& T
0---------1----------04 S3 z% C. @/ P" N
0---------0----------1 Y: m0 j& k3 S% u( t; P/ G6 L
$ P% s8 w5 V4 L* s
总结:通常使用label encoder(标签编码)
* H$ \- [( K% g) x9 l————————————————2 w1 B4 q( n4 L4 I; B
版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
; w! ?- J4 ?* Z4 ^: M! k4 H9 p& q原文链接:https://blog.csdn.net/First_____/article/details/126717523 g" P! x* x: | }9 r* X. z% l# O
8 i4 [( r( G' G9 m0 n
$ v t+ P6 t$ r% J' A9 h( _' ^9 g) u: F; g
|
zan
|