- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563319 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174219
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
/ m. [) Q7 ~) K/ r
1.机器学习概念及相关术语解释
2 W# u+ \7 `+ N7 w5 n
$ K: I# s9 g( d% k9 ~3 k% f一丶 机器学习概念) A$ k* D |8 t
概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能8 N0 v7 S# n2 ? p
! i7 v* E7 _( G" ^8 A3 n
总结: 机器学习模型=数据+算法6 h! k' A' @# J
Y" H0 u# g! c, A; ~如果有新的数据,我们只需要带入到Model中就可以输出预测值4 U7 y& S' p/ R$ ^
3 ^. S8 X( Q& p& H+ n' x什么不是机器学习?, u) K8 g+ l& _1 l4 L
. D( ]- K ?3 {( d; o& T
比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)8 ?& Z3 z- C _" d5 ?: _- \
机器学习其实就是需要有一个预测的过程
L8 k/ `& R+ [/ E
" S# B1 q# K6 n机器学习概念补充:! I* l+ N* p/ b$ T- b
; e' x% J: A4 I% i l1 b( I5 v: j
1.说明: X: 特征或属性 Y:类别标签类或预测的值
# \1 J8 I4 \0 g9 U& |* W4 c/ d# M X* x1 K6 Y% a$ ~, \1 P
训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
. `- d9 h! e2 Q/ z1 R% G模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)
' r2 X4 T" c# X; r二丶两种学习方式
" F2 E' o: Y* w: i基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可% R; P8 X9 b( E
基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据
8 k4 S# c/ V9 D; u% g' d" v& }, ?三丶术语1 I1 h# J* H8 ?4 g& n6 U2 B( m2 d
3.1机器学习分类的几种概念
/ L/ q/ i; \/ ~7 o8 m" E
! w5 }1 Q5 j! M7 o5 m监督学习: 训练集数据有类别标记
, l) l; m2 k. f+ \无监督学习:训练集数据没有类别标记
; \$ x- u# X) y, e) D1 Q Y半监督学习: 有类别标记的训练集+无标记的训练集, O8 X) w' ]# {
强化学习: 常见的应用场景包括动态系统以及机器人控制等: g9 ?; M' A A6 b- u
监督学习:7 o& N6 @0 ]/ h
7 d( d+ O0 m o' W' U% L
分类:预测值是否为连续值,不是连续值的预测的话,是分类
* Y0 M' @9 a; c) w0 x2 w回归:预测值是连续值的话,是回归% f8 o1 P9 d( ^$ X
非监督学习:
! k/ a6 w9 r6 a D' t0 C0 Z
) F! e$ Y% K7 G聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类
# ?) S! | @7 Q2 B+ z% o' u$ o e( [. G降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的: r0 |, Z; S/ V+ q8 ^# E; d9 Z
– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2( [: i% `* ]; _' Z
半监督学习:
# M! C8 B2 w- k$ R- H- W
0 Z& {' S# R a* l0 ~0 e# R6 G1.基于聚类的假设3 P8 i n8 j0 B' n9 ]
–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,1 G# B" u. I# \4 c3 Y' ~: T* v2 A( J; j
此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签; ]& t0 H4 k' ]& A
2.利用所有样本再进行模型训练6 o# Z/ m0 S) _0 o
强化学习:* ^, ^- H. t4 M6 p7 z0 v0 Y
5 _6 e3 k. E. d3 E5 t
解决连续决策的问题丶围棋丶无人驾驶汽车等问题
1 k* L6 ~2 D) q9 M) }( H3.2机器学习三要素
. s2 I7 O$ M" V3 \
; v) `9 I; f. `5 i( s模型: 决策函数丶条件概率分布7 i5 m4 f! a, t6 y3 g
算法: 解析解和最优解(梯度下降法和牛顿法)8 F9 I7 T0 g5 z3 @: k- w
策略: (损失函数)评判一个模型的好坏
; J0 s8 W3 k1 F4 d# ]/ V ^( u3.3其他5 {+ S2 o3 f( Z) b
' S4 T5 s5 Y% t* \降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
1 i8 j; h" a; f) r4 z抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决, l; B# \/ e4 h! k' O$ I
交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证
' i+ v! f. \7 i! d! x* n* c/ l过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂
' w, i: x5 L: k2 g' j- u' \欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
) J2 D; k8 `& m: |模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
* Q% ?4 z# N( _8 f" W0 R4 R$ d特征向量: 将属性或特征,通常使用向量来进行表示$ S/ [+ n$ S+ k+ l
训练集: 数据集划分的一部分,来用于模型或者算法的训练
+ p' |, F! ?# c# R0 J. _6 C2 A, {测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏8 a3 g5 ?& i# S# _/ K
% z( W" W! \1 u! k: a
* d: X2 R, a/ \3 F8 u1 S" q四丶分类和回归问题
# e! G6 _! Q# }7 ]6 C' v5 p9 A" |4.1说明
1 Y( W- R4 N, X$ ~ a+ Y! c x& P9 M, D* c1 W4 Q: i& }
如果预测值是连续值对应的问题是回归问题
. O: ~5 A2 y! L如果预测值是离散值对应的问题的分类问题
- { X+ Y d" y1 g- \' T! O4.2类别型变量处理
- F9 P+ c* ^! h6 M e: P6 x比如天气: 晴天丶阴天丶雨天5 _/ l3 l2 G3 K7 }+ R
lable encoder: 标签编码* Z, f+ @, E* `9 Z
7 I/ {3 y4 w; D ]+ u; L
晴天丶阴天丶雨天; ^& k7 r" _ Y: U8 k( _/ [! k
0--------1--------27 K8 l- _$ C( F& R" W
2 o1 Z4 s4 }; ~ L' Aont-hot encoder: 独热编码(二进制方式)
8 M) D6 ?3 i1 m9 P/ l& {
% D* w, u4 f$ u/ `1 @* R% o. m晴天 丶 阴天丶 雨天: y" |$ o) H% e* Z9 {! \1 o
1---------0----------0
, S7 O, R& d: v! X# \) k0---------1----------0( z7 i E" b! u& A" \; a
0---------0----------1
, r4 s$ S' x1 `0 v7 ~- I6 }! X: H4 N$ n/ e8 _5 N! T1 b: x; x
总结:通常使用label encoder(标签编码)
% Z( F0 i/ \; W9 T3 q+ `————————————————9 B5 ?6 g$ I6 N/ S
版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。% U1 E2 e' X- m; B/ Y8 q
原文链接:https://blog.csdn.net/First_____/article/details/126717523# I' O, v3 `- b }+ {8 ~
# J& T6 T5 o l+ d
6 p' A7 \% w: k
: I5 \/ {5 u% U `7 w. L/ K |
zan
|