- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564448 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174557
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
: A3 M: E9 E" R% r
1.机器学习概念及相关术语解释2 m. z: }& i) A, ?1 r
% u" y, |. r# K% f8 T6 `% I一丶 机器学习概念
% o) j. u4 ?9 A0 {( [4 d$ V概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能! m6 ^$ S3 z9 m {3 f2 |& Z
& A0 P7 C3 O! _3 @( `总结: 机器学习模型=数据+算法
3 T8 K( p; y5 p) K( K9 q
- [% ]2 i3 \1 l. N如果有新的数据,我们只需要带入到Model中就可以输出预测值" k7 V. O a9 U/ U3 T7 M
+ f4 W- T3 g: ?1 T什么不是机器学习?# Z3 Y) W6 A) A4 U
! o4 [: e: e! f& \! I( Y- V+ h
比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
2 s- i% S" G, O# e3 Q- \机器学习其实就是需要有一个预测的过程* N0 z# } E2 V6 f
* t, x& T+ M6 [* |
机器学习概念补充:& r G5 B8 {. r/ J" P
1 O$ U3 q d8 o
1.说明: X: 特征或属性 Y:类别标签类或预测的值
( ~2 C4 @/ W2 \, u: ~ r4 L" V% l7 F2 _) o: Q, Q+ G% \
训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
1 I+ {, \' g$ I3 n. H0 F* V模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)' T. ]& _4 Y) i- l
二丶两种学习方式& l! \1 B- c! H3 j3 Q7 G2 i
基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可5 _& ?+ D9 Q" ]- t8 O/ U. o4 L
基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据% G6 e" a1 t2 H7 K6 X# k- J
三丶术语- a! t3 D! O7 v; _+ Y
3.1机器学习分类的几种概念0 W I; d$ W" ]1 O7 F) M0 E% {
$ q3 Y" O" ~, h$ Z3 \监督学习: 训练集数据有类别标记; [8 r$ x% V8 b+ }- v
无监督学习:训练集数据没有类别标记. S2 ]& x* Q9 t6 m
半监督学习: 有类别标记的训练集+无标记的训练集" s. R9 \/ m! F& y, W& s9 K" w
强化学习: 常见的应用场景包括动态系统以及机器人控制等 Q3 H$ H2 k" C
监督学习:' g9 C6 r( b$ q: L1 \+ q2 v4 p1 q' p, g
0 j5 |) L0 r+ N! {分类:预测值是否为连续值,不是连续值的预测的话,是分类3 m4 m( u* B) G: n
回归:预测值是连续值的话,是回归
' B8 h2 \7 u: i, T3 }3 H非监督学习:
) Z6 L) I2 ^) C& R/ x4 P8 K! s
6 Q _" q& z! p8 q H; V5 U- m' o6 f5 Z* n聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类# n; X9 K h7 g
降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
" G4 M/ E. E) b) n, w; n; D5 h– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
( S& X# {& a1 t% j半监督学习:
: |0 g/ e9 _! n; B* L
* \0 b! {; [/ J+ H- n: n1.基于聚类的假设2 ~6 I" q0 {: E
–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
8 J, k% h9 m7 ~" [& z! P此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签2 Z' M9 D, C; P- S/ _- p
2.利用所有样本再进行模型训练
/ M2 g. R- |1 W/ l% F0 Y. m强化学习:
2 J2 r0 h. U; p3 X0 Q
7 G p. t: w: ]1 E' ^解决连续决策的问题丶围棋丶无人驾驶汽车等问题& t7 l" r; c; s% \; `8 }, T |) p
3.2机器学习三要素- N, G0 V) C- ]/ |5 s3 h* R& z
) B; ]' k* S- U# b( G, K- r模型: 决策函数丶条件概率分布
4 P7 e! K4 h3 |8 K+ y( T算法: 解析解和最优解(梯度下降法和牛顿法)
* [ [% M( u3 d! v) v4 S4 G3 P策略: (损失函数)评判一个模型的好坏
a# r' [$ l! T9 I, T. Z+ \" q0 c3.3其他
. c/ n+ a$ L b2 C! Z- z: _# B( F& m8 W; V. q: |/ E
降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示# f. _4 p! T) I. J" }, t
抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决6 U1 j( v2 \% z% h+ }
交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证
+ K0 X0 o0 h/ w过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂% h' y1 m2 ?* \# y
欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单. X% J2 c% Y% i; k
模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合0 A* n6 a& _- L) f
特征向量: 将属性或特征,通常使用向量来进行表示* v8 S. O" O O6 K6 @" v
训练集: 数据集划分的一部分,来用于模型或者算法的训练
3 I0 V! c( D- z" {3 u& p+ g: J测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
6 L% G% t3 @. v' {, I4 S% Q# e/ Y. d* F! v: Q* m' u
8 i* l" L1 U0 X& q* @* l4 m
四丶分类和回归问题
[" @( F3 W. A3 E( k4.1说明* _: _" k3 x% b- T% z
% Z7 i5 M: _9 u" E
如果预测值是连续值对应的问题是回归问题
3 W# X4 R3 N& A如果预测值是离散值对应的问题的分类问题3 ^) a2 n- B- x$ R. V4 Q
4.2类别型变量处理# @, j6 ?$ M% [
比如天气: 晴天丶阴天丶雨天
, X9 N) C' l4 k/ M4 |. d) B2 b0 R, ilable encoder: 标签编码
* N$ P+ `, U* ?8 W3 Z% h& W& i% C
" Z# j9 P+ m& c* Y% {晴天丶阴天丶雨天
8 T6 i( Y, t: O6 b6 O3 W0--------1--------2
* c# p" h4 X1 L7 S: r& _( Z0 v
2 Q; `3 p) l2 m' J5 G+ x b1 pont-hot encoder: 独热编码(二进制方式)
. M# M; }* `$ G" @$ [( R; T% u9 M$ T# {" @* i7 R
晴天 丶 阴天丶 雨天' u z* r2 t0 J6 K8 ~
1---------0----------0* @( }$ _8 h5 p. C7 W$ O' w
0---------1----------0: a {+ @. ^8 N! O( Z3 b
0---------0----------1
, e- j0 L& c; d
0 q# b5 E/ K. |/ }5 f& h1 O总结:通常使用label encoder(标签编码)
* b2 x- N2 i: \————————————————3 ~4 ]6 }7 u* \2 |
版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
3 s) L( {/ O! G! Q1 o5 B原文链接:https://blog.csdn.net/First_____/article/details/126717523
0 }! [7 _' m, m
+ Y+ g6 H; R! e' @& B2 D/ y" ]5 N( x$ _# A" f
+ ]# V& s& K3 y' K" S |
zan
|