- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563314 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174217
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
6 k; _" j: T3 b9 V
1.机器学习概念及相关术语解释0 Q* u v+ m! A' z, z
# P6 H1 J* a6 ~- ^7 t一丶 机器学习概念4 T/ ~" ^1 U6 r, }/ g6 B
概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能/ c2 F- _) _( \5 t5 a
, q7 y) k. X9 j6 w$ Z9 O8 U# d
总结: 机器学习模型=数据+算法$ X `% ?6 a% y
& P$ O3 \9 m4 c
如果有新的数据,我们只需要带入到Model中就可以输出预测值5 D$ ~% Q- S) e; a. I- Q
5 n: z) e6 F# L- G& q; v
什么不是机器学习?
9 a1 n$ z0 m/ L, |
* a" Y- w4 }7 w7 M) N- n N0 R比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
. y A# Z; X% E6 `机器学习其实就是需要有一个预测的过程
2 e- Q6 q" G- l% r G- K% ?0 G6 h5 S, G: N' I7 ?1 [
机器学习概念补充:
5 V+ ]/ G; j4 l# `( U, i6 ?: \1 H8 v' N( F
1.说明: X: 特征或属性 Y:类别标签类或预测的值( `3 d3 e4 q3 Z- |2 t
7 F! b1 Y4 A2 U* b& a) c( ^6 U# |4 q1 W
训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
+ ^ e! h- h9 K( Z+ ^* s; E4 c模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)" m% l1 U6 S* U$ n) N }
二丶两种学习方式" H: \8 D" A$ m5 z$ i
基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可* y' C \; B9 l/ S7 F. s
基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据5 q; l- @% F& v& {
三丶术语
8 y+ V) ` f) C0 {3.1机器学习分类的几种概念
5 F0 r9 u( W0 W6 J* c
. e+ J: ]' Q1 K7 x% ^- P# A监督学习: 训练集数据有类别标记
) w0 k( w' v8 i无监督学习:训练集数据没有类别标记
4 ^) C; F( l$ F: O6 f$ y( G9 z半监督学习: 有类别标记的训练集+无标记的训练集' C( o! g9 Y# m) N3 `7 N. C7 V1 Y
强化学习: 常见的应用场景包括动态系统以及机器人控制等* Y; U0 I# x: j: y
监督学习:; t8 Z. c: |0 r) U. y( q+ u1 h3 u7 Y
: _7 s, U; |5 _$ _1 U5 C7 Z; k分类:预测值是否为连续值,不是连续值的预测的话,是分类1 l/ l' ^9 ^6 a: g [; z, c
回归:预测值是连续值的话,是回归
+ v& ^+ s7 t& n3 n9 G非监督学习:; F, K/ D; C+ h3 \6 Z
3 d6 Z! ]0 A( g' M0 J
聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类
- r+ k5 o+ b7 [: b降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
; h( R' d" {4 m# ~' X- l2 g: N/ T, o– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
+ F$ a h) ]6 f7 ?$ l4 I半监督学习:9 D3 |/ B+ ?8 B) t, x7 R
5 L" n% W u; @9 H' J; H
1.基于聚类的假设6 a1 d& [/ b- x0 b/ q% F
–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,( L, ~& F* o" p- p) \
此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
9 P% g5 E1 W R" e9 u, M2.利用所有样本再进行模型训练
2 v, c/ F$ Y/ ?% x9 a强化学习:
1 p/ r U8 U3 q4 ]9 j' ^6 p2 T$ l3 Y" K
解决连续决策的问题丶围棋丶无人驾驶汽车等问题. k! e6 B1 b1 N8 c
3.2机器学习三要素
) z- R6 v; k y, J M. V7 D+ z, [. O D0 k
模型: 决策函数丶条件概率分布& [9 f: I* u$ w6 n" i+ l% ]1 O
算法: 解析解和最优解(梯度下降法和牛顿法)
+ d7 c8 L7 n: T* f3 w: y W策略: (损失函数)评判一个模型的好坏' D, F1 @$ a. j7 B( m
3.3其他 I7 E) k3 Q; J, x9 Z- n$ L ~( D
' H0 F: l3 t! M# X. V ] X
降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示, A5 Y+ a; M( C+ Z3 f# D2 \* |
抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
~1 X; h2 I$ p' V9 `4 d0 @交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证
* [+ w3 X. F" F Q% s: B# I过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂) `- a5 F* A" B w: w
欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单 i. A+ L) P5 E1 i* J6 S
模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合! b% n6 w1 Y$ g7 g
特征向量: 将属性或特征,通常使用向量来进行表示
$ q1 r+ W% k0 I9 Z' t训练集: 数据集划分的一部分,来用于模型或者算法的训练
3 `( G: s" l& Z& o* I! ?1 \测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
' y# H6 f' U& y2 q
- I5 L, F. G: Y' ^( {3 b) g: N. P; J7 R* p+ R6 r
四丶分类和回归问题+ u# O4 w7 g6 h
4.1说明
: ~2 w4 d! V- B& X% m
* U+ }5 B# z1 O* x如果预测值是连续值对应的问题是回归问题
6 N$ @" U$ E+ h }2 U$ S如果预测值是离散值对应的问题的分类问题" M. Q3 g* Y6 F6 X2 O: }0 r# {
4.2类别型变量处理
3 N$ z9 |, l1 u: C4 L5 F. E比如天气: 晴天丶阴天丶雨天
' `9 ]& i" J. j/ p+ y2 I llable encoder: 标签编码5 A0 L1 B( \) @. K" _3 H
$ X9 z7 E! w9 z2 O! g Y
晴天丶阴天丶雨天
5 Y( P3 W2 W& a- O: G$ c0--------1--------2
9 M% j. l1 u& @4 Z' s6 U- G3 j
~+ _6 _% ~: Q+ g: K9 M* i* ront-hot encoder: 独热编码(二进制方式)( `. B r7 M, B& r+ l( a$ z
5 P! k& V/ C5 C晴天 丶 阴天丶 雨天
! h# y9 d9 b$ J- O% L" {+ ~1 q1---------0----------0
5 [5 h6 n, E' h) k6 E% Q8 f0---------1----------0
( f! f% H( k! Q: w7 b9 i$ m0---------0----------1
% a5 l8 U, V. y8 g- n9 D7 n6 V. l3 I7 w
总结:通常使用label encoder(标签编码)
; \9 c$ P) T: a7 Y4 s2 {————————————————* x3 D4 k H0 u) _; D
版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。" j* P, q" `) C; V5 Z
原文链接:https://blog.csdn.net/First_____/article/details/1267175238 p6 N8 G% i; Q) p; a) M% |
. Z' V1 ?* C$ Z: y: b! l O4 u2 y8 L# x8 @8 J1 I$ p- ?
( v R9 V3 U" i4 ~% T" l |
zan
|