- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563297 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174212
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
( C3 p0 Z6 U5 R& O9 j
1.机器学习概念及相关术语解释
$ V+ y% p l0 L3 v% t! S+ k/ L7 E6 ]5 R
一丶 机器学习概念) X) R6 \2 C! m& H! V) u& _/ ^% \
概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能. K! I/ @, l% \! K: Z4 r1 ~
N* d" r: H$ ^ A0 Z
总结: 机器学习模型=数据+算法
+ Q$ W N/ ^6 r+ N1 A V" a% f/ a a+ V3 Q ]
如果有新的数据,我们只需要带入到Model中就可以输出预测值* X2 l) l& n* k! m- K% O
# s% f$ {% {0 ?& U7 }什么不是机器学习?: a# Q/ l2 m% p- ^* I
- t4 b1 n+ O# z3 X& M
比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)4 e8 @, C$ R3 z: A% j/ E4 A* n
机器学习其实就是需要有一个预测的过程
& i0 m, [: d E
3 c) p8 K, p" @) e6 B: K机器学习概念补充:
1 B$ W2 n# V5 Y* a$ i5 J2 K" n. D. ]% P" q
1.说明: X: 特征或属性 Y:类别标签类或预测的值
4 k3 s1 b9 ~ Y% B/ ^: u
5 Q' z% H! x% @% n训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度." C: q& b& @' g7 W, i' s
模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)9 D3 a0 q9 r$ `/ N( n$ q$ r5 C
二丶两种学习方式; d$ d# l+ |6 E3 m
基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
+ e+ t# j1 U: {) `% Y$ K0 n基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据! h0 S3 s' o0 ]# f; N# y
三丶术语/ y3 K3 O& v1 D& {5 S0 E9 @) v0 D
3.1机器学习分类的几种概念
' U2 J% I& l+ B% Q+ D3 D& }# b3 M% T- h. o/ j. K, U
监督学习: 训练集数据有类别标记
# v$ r0 g% ]4 C7 H# a! q5 Z无监督学习:训练集数据没有类别标记( c* q( f2 f/ j$ ~: _# _
半监督学习: 有类别标记的训练集+无标记的训练集
5 v$ D3 O' u' o) ~( n1 R7 Q强化学习: 常见的应用场景包括动态系统以及机器人控制等
) X. p0 ^6 x3 W5 L% i监督学习:
& ?2 ~9 h$ F) I7 n, `# J, e! q3 ?6 Q6 ^) O4 d3 x
分类:预测值是否为连续值,不是连续值的预测的话,是分类7 A, B+ v6 n: M0 x+ |+ q
回归:预测值是连续值的话,是回归
7 B' r' Y/ R$ Q3 G/ t非监督学习:
: A" p# Y4 L$ R" X& A* s2 M( M! M9 U2 A* X
聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类2 i7 F' F" z+ i
降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
0 J/ H4 _7 v& m. ~* k' N– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2% }( Z9 U0 F7 _6 N ]
半监督学习:4 ?* f; j: I5 M" }6 y
5 L+ g* g& d) ]! _
1.基于聚类的假设0 N+ A- N& I0 t3 T% a$ f
–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
( c) ^: g) f: i5 e. v此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签6 D5 ~7 U8 H- h9 m# K# h
2.利用所有样本再进行模型训练
5 W4 q9 w$ M. j7 _* w3 y1 Q强化学习:
$ O- X+ I: }$ ]& |/ N# M# }4 r9 V! k
解决连续决策的问题丶围棋丶无人驾驶汽车等问题
7 W, }4 \; C1 V3.2机器学习三要素- x% S* z5 h- l, A5 |% }/ q% l6 _
! G o+ M3 j& p( o$ P6 h9 q
模型: 决策函数丶条件概率分布7 X: ~+ T" v& a$ F
算法: 解析解和最优解(梯度下降法和牛顿法)6 d" v- L% h' J* i9 M2 K) d3 n
策略: (损失函数)评判一个模型的好坏 A: ?) t7 O/ E/ d+ r
3.3其他
+ ~1 C6 Y) u! e, ]& P
5 Y/ I6 B. R+ q4 k3 B0 A降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
9 F, q0 _- t) }2 W抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
3 g( W9 u+ J: k交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证
" h: v8 G3 W/ ]9 C4 W* [过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂
) s; o' `0 c+ G8 a( Q欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
& m% h/ k E8 H) S0 Z. b模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合( A: Z( ^% W% j5 D# O
特征向量: 将属性或特征,通常使用向量来进行表示
0 w) y% v( ` G/ f- z, I训练集: 数据集划分的一部分,来用于模型或者算法的训练
: r. q8 F8 g" q& ~3 B* Y* D9 k测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏+ g( C3 i4 u4 h1 N. j1 E
+ }7 q# n0 [7 V1 s
) i( Y, r7 Z% V1 L: {
四丶分类和回归问题
+ |) z8 F9 I; v3 Z& i2 v4.1说明
+ F0 R0 D! U- G
# D; A5 C& C' c7 s9 X# @如果预测值是连续值对应的问题是回归问题
7 m- N" [5 k& \$ S8 }6 z" ?, m5 t如果预测值是离散值对应的问题的分类问题
5 {, u( `- {8 S, N v# D# v+ F4.2类别型变量处理& t$ i) _$ \1 z; F
比如天气: 晴天丶阴天丶雨天
( v% C8 P7 X) | u3 ?0 ^9 y" ^# T) dlable encoder: 标签编码/ Z5 {0 s6 c. S5 D
. S7 _: g' W, ?
晴天丶阴天丶雨天
0 O9 O( }3 ]* `2 l0--------1--------2
6 E4 w. q3 I# @# y/ Z# _$ p( I% ^: S$ |, E6 K
ont-hot encoder: 独热编码(二进制方式)7 i. R b8 n; R8 E, X
% t# `# m0 j# _/ t0 e( ]" |* [晴天 丶 阴天丶 雨天
. R2 C- C7 b& s m- w1---------0----------0
% z" b8 w/ K& ?" q0---------1----------0
5 }, n$ b) [0 V7 `0---------0----------1. R# {. O. ?8 b1 N3 t. g5 |
) l2 y! N6 u" f
总结:通常使用label encoder(标签编码) E' N, w6 I+ K+ h% }4 R
————————————————
; U+ t4 d% b4 d版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。4 @" W2 L( l) h1 O
原文链接:https://blog.csdn.net/First_____/article/details/126717523
. f" H! Q- P/ ~4 S! Y9 l! n, ?6 n; O8 C
5 g; Z6 s' I6 I* N
5 }+ d% g2 b3 W/ @1 V. U |
zan
|