- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564695 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174631
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
6 H+ e' T/ I# s% S. h( |5 R
1.机器学习概念及相关术语解释
8 \' _! M( A! p; Z% T2 f" b) N1 e
% E& k* c, D7 E9 @+ f% O' H一丶 机器学习概念
9 b1 f6 y- B) \( v+ r( E: t概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能) O* f0 Z' u# K( A
# u4 ~5 W% g4 \8 `
总结: 机器学习模型=数据+算法
% L9 a5 W3 v, a% I& P/ B/ o6 a- g
3 ^8 L0 a; r! x, m! N9 e- d; J如果有新的数据,我们只需要带入到Model中就可以输出预测值$ w5 F4 P; o9 U2 |
. D) W0 U3 k! w# K9 g: L/ X. M/ H3 M
什么不是机器学习?: N) l o% r2 ]# k* D) X' I& t
. ?5 j' @$ G3 E
比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
; x# W9 w; ]6 B机器学习其实就是需要有一个预测的过程
! ^7 C3 \9 c0 k0 I3 [3 v( m {' @
机器学习概念补充:
1 e1 R s; B1 i$ |9 |, k& D: Y4 ~
1.说明: X: 特征或属性 Y:类别标签类或预测的值% b9 f7 r7 O8 \$ g, d
+ W3 E! n3 p5 G5 u! }3 k* u7 Y" ?: @( t W训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.* [( t p( ]8 C$ R) V
模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)
- _' `; `5 {% Y% u& d二丶两种学习方式
: @- S1 a1 K# \! `9 R5 R! L基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
; C5 ?! z: ^* g( R: T' L基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据7 y; m; i4 ^% l5 j. n8 ]7 }
三丶术语3 T4 Z% x: M1 U5 U! Y! G
3.1机器学习分类的几种概念4 M% W1 F& A4 C' Q7 u
4 z9 N$ \! @: W" F8 ~监督学习: 训练集数据有类别标记
/ q* l8 w! U K3 a7 G9 Q2 w* T无监督学习:训练集数据没有类别标记
7 B- P+ r" ~) ?$ ^- n半监督学习: 有类别标记的训练集+无标记的训练集# ^3 }5 H/ r& K2 ~
强化学习: 常见的应用场景包括动态系统以及机器人控制等
6 m' O% t: j/ ]+ ]& w. R! m监督学习:
! U, T2 d# E1 L; V4 t4 h/ ^. _/ v- Z; Y) U z0 ^! z
分类:预测值是否为连续值,不是连续值的预测的话,是分类
$ t" T' B, j5 B8 V5 n5 a [回归:预测值是连续值的话,是回归
9 ]) [5 x) g6 Q- L6 N) v/ d非监督学习:7 t6 o2 o+ ]: d
}9 Q+ ]2 b( W H5 q6 K; i聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类
1 I3 i$ j4 K, M. n降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
% |" A9 b8 u( {9 d. F, `– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
% F2 [% E0 }* o& c( p; d半监督学习:
: t8 {7 x8 N1 k! [( J4 V# J9 v$ k2 k8 r4 _+ y* h. A! S
1.基于聚类的假设& A+ V* g a8 U6 Z6 g/ a
–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
& V4 @3 `5 m7 w4 N' @此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
$ K* t! f, q4 c/ L9 f. j: A2.利用所有样本再进行模型训练3 X9 N8 s' x5 ^3 M/ v6 r+ v' h
强化学习:
( Z$ {) e4 E, I% m/ p7 S7 W
# |1 b0 J* l* T6 `- j解决连续决策的问题丶围棋丶无人驾驶汽车等问题
8 l8 X; t4 y) [+ L, ^) P: G2 p, d3.2机器学习三要素
$ X9 o& M5 m I; P0 g2 S& S3 B1 h
6 a6 ]( \# c( a8 J模型: 决策函数丶条件概率分布
$ y U/ ^* Y1 [; B/ `' c0 Q算法: 解析解和最优解(梯度下降法和牛顿法)
! ]& P7 H$ C$ g. |! p+ M策略: (损失函数)评判一个模型的好坏
, d. v3 ~9 ^6 x! v3.3其他
8 B- H1 m) t" x" A3 G4 d
( U- @4 a# I* a* h; E1 l6 d降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
# v( K3 C: o' I$ I4 v: ?抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决1 ^1 T- T" P( A0 I# F
交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证 N# s( a8 I% S% N, n6 N
过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂- g# Q9 `3 Y# n2 u
欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
- Y+ P) B( b4 {7 \ v M# C; A2 T模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合' ~. P5 ~- f1 C f0 V) U
特征向量: 将属性或特征,通常使用向量来进行表示
3 q0 p) V' \ F4 \训练集: 数据集划分的一部分,来用于模型或者算法的训练( ~/ N4 |* p; N& r) ~4 i' K
测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏, o8 C0 G- v6 r+ x c
w- |) o* Q, w# a/ t7 P( W7 O- R4 I& Q0 f- a9 Y
四丶分类和回归问题
/ g, D4 L ^) Z& l, Y, m4.1说明; K3 T+ l& b; `
1 q6 N. h+ G0 e如果预测值是连续值对应的问题是回归问题- v* D, r3 k; y# o9 E2 A
如果预测值是离散值对应的问题的分类问题3 y9 u3 B8 c6 ^2 X& F1 H
4.2类别型变量处理8 J, k4 p' q" [% G" n9 d! v
比如天气: 晴天丶阴天丶雨天
* e: s* f5 l3 H3 V O$ h9 g4 Q+ N: Olable encoder: 标签编码
" ~' _ P( C, z$ Z0 k9 ]+ S3 h: [ N Q0 W9 c0 u3 k5 B
晴天丶阴天丶雨天
+ E9 N1 o: g1 Q( u! E0--------1--------2* e" s; v! b* l
8 ~9 k7 A. H$ _! F7 h( vont-hot encoder: 独热编码(二进制方式)
" o6 Q# G& M; T: w# D; W% U& W- n, c7 s ]9 @
晴天 丶 阴天丶 雨天) s8 v! B4 p% K0 {, o
1---------0----------0, C3 c: x& R7 h) P0 W, m
0---------1----------08 l; I& W5 H3 ]! y6 R7 k
0---------0----------13 k2 J7 d) Q3 R6 @
: h2 q \; A2 b
总结:通常使用label encoder(标签编码)/ z% T# b" ?0 y( B8 m% E: B$ ~$ Y
————————————————
5 A c @" D9 v3 i版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
0 F! ~/ }& ?) ?- W* a* l `原文链接:https://blog.csdn.net/First_____/article/details/126717523- ~0 i- m3 j7 `/ x' C N b2 a1 |0 x
( B% v& y, t: g4 b8 V, R
! H" x$ W" _8 U" Z
/ U% c* |4 y; \: {! p; Q+ \
|
zan
|