- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563412 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174246
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
6 ^ h4 A2 d; c) v2 W' `) w! |1.机器学习概念及相关术语解释
. w, j: K, _7 _% d* L; D4 k; p% M' o
一丶 机器学习概念+ ]; R M9 X% f/ g
概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能
( B% X V4 }, \0 [' U1 ]7 p/ D/ r3 r( q! h( F" H
总结: 机器学习模型=数据+算法
0 Y! `% g! K9 ]5 L' C( C; i
$ [" b9 z2 f; O- w, U& v) o: Q8 e如果有新的数据,我们只需要带入到Model中就可以输出预测值( z) l3 M9 ]6 i. K' w2 G- r
! h8 J2 E$ K) r% }, [# c$ v
什么不是机器学习?
% E; T5 d+ [' |7 h7 y
a5 p" b3 I4 U$ r# W$ p% U% v: [比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
* Y. s# ]: z: Q机器学习其实就是需要有一个预测的过程
0 U# L2 S k- F2 w$ d2 `: _
1 M/ H6 H& u) S. q机器学习概念补充:
4 j. ]& ^4 y8 v, W/ U5 K6 A# ?1 M0 G# [ U7 O$ V
1.说明: X: 特征或属性 Y:类别标签类或预测的值. c; p4 B7 h3 o% z, w4 t- _
3 ^- C% V$ `- F* p
训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度." D7 n* n- V1 e2 m& E
模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)
9 |# M0 c2 `6 U* E二丶两种学习方式5 |" ~$ c+ Y! J# T# \/ j* N
基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
% J4 M1 X" q c7 ~8 L基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据- F$ w% r- T* d7 j% I
三丶术语# k/ Y8 G; d) i `- `* [3 a
3.1机器学习分类的几种概念
1 W8 w- B# b8 S# s8 w( J- v+ P; c6 e$ q4 ^1 @
监督学习: 训练集数据有类别标记
( \" T3 I$ }1 `* T无监督学习:训练集数据没有类别标记3 p) k* s% q7 b8 j& D
半监督学习: 有类别标记的训练集+无标记的训练集
; f# a# _- V9 T! d' |) l3 e& [+ `强化学习: 常见的应用场景包括动态系统以及机器人控制等+ I3 C* x8 E1 J/ o
监督学习:& y& O6 ~9 c1 a1 Y- i
3 Z+ m2 x* ~4 A. ^$ ~' i分类:预测值是否为连续值,不是连续值的预测的话,是分类
+ [) \0 h, r8 y% k; g8 }1 ^2 E+ L回归:预测值是连续值的话,是回归4 H& S0 q/ o. e* G6 m
非监督学习:
" V4 Q: D6 ]5 c; {+ z9 H! k% ^5 G. J% N; j- h7 n. u. s
聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类1 [; f9 H, o: j3 u# m' e% K* @" \
降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的6 Q" n+ L5 b& D& A, n) ]
– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
' Y5 o+ h: q E半监督学习:' p+ W9 M7 ?5 K8 s
0 q2 F' t; @. A# y1.基于聚类的假设
u: a0 r; r8 U c0 F4 A: q: E X( P–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
5 w$ A# S5 T" P# Z; n1 V% F此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
- x: D# q0 e1 ]2.利用所有样本再进行模型训练
0 G q: Y$ ?3 K$ }1 D% q强化学习:0 V! a6 w5 V2 ^
( v- o" E5 }# s) D* O. I# D
解决连续决策的问题丶围棋丶无人驾驶汽车等问题- @0 Y4 b2 ]1 E, p5 w$ W& g" U5 s
3.2机器学习三要素- D$ Z- p. K; y7 Q( t8 \
2 Z6 ~/ x% E6 x3 t
模型: 决策函数丶条件概率分布1 g6 l. j; {. X S; I6 y5 Q) l
算法: 解析解和最优解(梯度下降法和牛顿法)( D5 ? Q: W0 Q/ l# q% b
策略: (损失函数)评判一个模型的好坏
3 C9 I8 `. Z& p" H# L' N1 `3 @3.3其他
/ W/ q K8 G. X/ j2 D- v- n( ~; v* o, M; H+ G1 H
降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
$ f/ F% r0 X0 E, X; D( E抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
% y" P4 W- c% C( T交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证! F' K' ]# U8 w, y
过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂
; j: h, f) u+ F; ~欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单2 `. t, c5 q `+ b4 B
模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合9 Y, `# N' \+ o0 s8 ?
特征向量: 将属性或特征,通常使用向量来进行表示" B- [( P9 H: V) V# v7 K; e- u
训练集: 数据集划分的一部分,来用于模型或者算法的训练" u, `3 W5 X! A/ @' j
测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
( z" ?! m. r1 u- D/ l0 v2 ?& | s
% Z& M5 f" s5 p% R) ]5 H' m
四丶分类和回归问题
& I. ?" b" B/ l# {4.1说明
4 l3 o1 A8 F& i: H) [% I6 O% |- X; \( {4 D) _6 o3 k6 W( U; ]
如果预测值是连续值对应的问题是回归问题+ }, K+ D' ^1 Q, U& v( K- D
如果预测值是离散值对应的问题的分类问题
$ T5 V( `& G( E* L5 y( Q4.2类别型变量处理
' ]: L( x5 f, M( C8 Y比如天气: 晴天丶阴天丶雨天8 x9 M q( D4 o
lable encoder: 标签编码) c& e7 x5 \2 M$ q1 D3 X" d3 H% T7 j
6 S9 f7 o& V+ M8 m4 e, ^( B$ ?晴天丶阴天丶雨天/ B( C' J& m! O$ C8 ?
0--------1--------2. M8 a0 \2 |( b5 d7 M2 N8 @
( G" z% s I( [3 m& K& ]ont-hot encoder: 独热编码(二进制方式)
3 d' Y. H E) z( G* @5 r* e. X! n* V" u' H: g# e
晴天 丶 阴天丶 雨天
5 J8 s; V Z& F; e1 E1---------0----------0
4 G' e: P6 J0 x1 O0---------1----------0
7 g9 J& E1 |3 ^# Q0 i0---------0----------1) R2 S+ ^( F* Z5 g0 K
. q/ h: O5 m8 k2 z' l& ?7 S
总结:通常使用label encoder(标签编码)
9 x' L$ v9 z( `8 w' C5 I————————————————# ^, u- P& f3 i/ Y9 B
版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。2 y: E. n1 M; I, G
原文链接:https://blog.csdn.net/First_____/article/details/126717523) U; J# w; N0 h9 k& U
2 z1 t- D) I# A+ P: E, e0 C: o/ y& a% d* H: B" l
& _9 {7 H! e: r1 o8 E6 J& C+ b |
zan
|