- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564698 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174632
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
- B/ H' p0 F5 }$ ^1.机器学习概念及相关术语解释
. H4 M3 ?1 z% N0 n9 K1 W6 W1 X: w- M3 f1 V& s
1 Z- ~& @! [) |' q$ K" J一丶 机器学习概念
. s" u' C. i% a, F% A1 q7 W2 L概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能
' g2 E* ^, P0 G/ W% F
$ ]4 V" N0 Z$ e& h( f2 F( X4 d总结: 机器学习模型=数据+算法7 Y! K, B) [" o. Q5 f# H# A( K
& b1 l$ [( g5 h: r! ]& V如果有新的数据,我们只需要带入到Model中就可以输出预测值
' T" A7 k; Z; ]. x1 P4 } c: h: h& R# a, n
什么不是机器学习?
) {% t! b; X7 u6 j$ N- O5 Z$ n. e+ Y$ \# l; i
比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)2 \" J" O6 O, h7 B" z% t' {! ?$ d
机器学习其实就是需要有一个预测的过程, `' Q& m6 w; I- }! C/ U
( g& m2 i* g* e- I
机器学习概念补充:) X2 y. a/ ~, T
$ N5 Y3 ?8 j+ ^1 C# C1.说明: X: 特征或属性 Y:类别标签类或预测的值0 U6 E/ R4 s1 A! d: ?* H
+ u; ?; N* I: ?- D9 C% j, h8 g% @
训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
! S4 T; T' j! s+ u: K# f模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)8 k! H# m6 `4 _) j" V
二丶两种学习方式7 u3 Y4 [0 W& L
基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
7 u- b# [6 m% H' ], m基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据
2 u; c$ W1 T: q, q, c1 f三丶术语' e7 q h# w6 [- l5 G! `' T) A
3.1机器学习分类的几种概念
: U0 V b; B" F
/ Q2 r4 d7 S3 }* J监督学习: 训练集数据有类别标记3 o& L2 _$ F$ I* N; Q j4 F6 A
无监督学习:训练集数据没有类别标记
% k q0 A, X% {% T! C1 m5 N半监督学习: 有类别标记的训练集+无标记的训练集. I9 A: x: }; e. J8 T% w
强化学习: 常见的应用场景包括动态系统以及机器人控制等/ T. J7 j1 |- p; G3 u' c
监督学习:+ I: F4 I6 d7 l5 }( q2 z# @) B
4 e7 k/ P, a# g6 k, o- N8 z3 X
分类:预测值是否为连续值,不是连续值的预测的话,是分类& R) z9 t. Q7 J
回归:预测值是连续值的话,是回归* y: L# R1 _$ U* G5 ]
非监督学习:
6 h1 S: N4 T- n+ U9 C2 {* e. _+ D: X8 q1 d, u5 ?, Q) R9 x+ V
聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类/ {. h% g8 k7 d+ g1 j
降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
; c9 k' r8 j% o! B* t2 a# ~) `– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
7 W% O/ U" J8 D2 t$ X半监督学习:: f" G0 w- l) v
8 j( H) z$ r8 w( s0 g
1.基于聚类的假设( i! f1 A3 A" i4 M! i+ t
–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
' _. r% m2 `5 k' j此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
" n5 G# j0 p( c0 a2.利用所有样本再进行模型训练8 E! N6 I5 H/ |4 w4 g6 v ]- i+ t% }
强化学习:
4 T0 J) r! x! C9 S! P% ?; M: N- Y I0 Z: c' g1 l
解决连续决策的问题丶围棋丶无人驾驶汽车等问题
m8 l3 w. W3 x4 n3.2机器学习三要素; g, L, X% H" K1 [* u
8 L& y! q; a4 R* r模型: 决策函数丶条件概率分布 s+ O9 d8 U3 G/ L& R
算法: 解析解和最优解(梯度下降法和牛顿法)8 X. j; x# B: O
策略: (损失函数)评判一个模型的好坏$ O: S% d; G2 G' A& B
3.3其他/ x) b% O3 j8 n9 S
, w' u/ l& l2 U& P+ K* }/ D
降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
* S8 I, f1 [% @6 N抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
: C8 v/ v& i2 Z4 U交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证2 U/ O: N/ C4 W( b/ x5 w, V6 A
过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂
$ V$ c$ F8 T- F5 Q0 H. d欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单 p1 n# m9 M7 \' b
模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合 D2 Z) n4 Y4 {
特征向量: 将属性或特征,通常使用向量来进行表示
# i4 N0 f; R) Q( k: }$ @训练集: 数据集划分的一部分,来用于模型或者算法的训练$ n% t( r! E: E* p i" n
测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
3 e" _1 `7 U2 ]( h7 ^+ ?2 t5 G2 X$ e$ G
/ M9 Z2 a. N( N/ n四丶分类和回归问题" u+ ^ R. C3 Y$ Q0 D
4.1说明+ i. k8 D4 K$ @& r
- G7 W2 ]# h- e2 s1 S/ @/ q
如果预测值是连续值对应的问题是回归问题+ U. y; {7 ~* ^, O% V8 Z# d8 ^
如果预测值是离散值对应的问题的分类问题9 ]6 \- ~, M/ X. M
4.2类别型变量处理( |1 p$ P+ j: P- H- `: G- T
比如天气: 晴天丶阴天丶雨天; ?6 X* q% r2 X0 g/ E
lable encoder: 标签编码5 U% E$ D# Z% B4 }# q3 i
( H% J! I3 a/ A; U晴天丶阴天丶雨天
" s* u& t3 E6 p) Q# E; p0--------1--------2
6 I7 T/ |: ~4 O' [5 U/ G
% ^9 `$ l$ ?' X6 Ront-hot encoder: 独热编码(二进制方式)- h. C$ J% o. l4 U
! g8 G @9 U) ^晴天 丶 阴天丶 雨天/ N7 U: N2 a4 P4 _* y: w
1---------0----------0% W) n# A4 y& X3 @9 a$ C, K8 Q
0---------1----------02 _4 Q6 P" Q( r* ?- w) z: f/ R0 Z
0---------0----------1! }! U- ?; U5 j! D/ C. V
+ Y. Z, A1 S9 a2 v1 R% T+ @/ p
总结:通常使用label encoder(标签编码)
7 X y4 V+ g# g Z) u. w4 d————————————————& _0 z3 s8 o* A9 l- Z" Z
版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。; R0 I* k, ^# j
原文链接:https://blog.csdn.net/First_____/article/details/126717523
m9 t% U& M* I8 d6 E. b
0 D: P8 y6 Z& G+ \2 W: X
2 y0 @% u l4 g9 a. R. ]( u9 W) V2 }5 v3 M$ S4 o/ {0 R0 j
|
zan
|