- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564698 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174632
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
: ~- P, T/ w* h m; V9 z
1.机器学习概念及相关术语解释/ {% P1 x" K& j- m0 L/ g8 X4 ^
5 a8 G7 q2 \$ q一丶 机器学习概念2 P8 z0 a* b$ ~% g3 Q
概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能0 [9 f# R+ ]$ q8 W% I& C- U( t% t
- i/ x' \4 f) o) [. l! ^9 |总结: 机器学习模型=数据+算法9 P/ S6 Q8 L. M5 V) A. E8 @
% @' F6 L' i0 e( ^如果有新的数据,我们只需要带入到Model中就可以输出预测值
- }- F, u! m% U# o9 T& x7 Z
* [0 [+ @0 U3 d什么不是机器学习?! m9 k- \! Q% S% y( G
" e% H1 w# _( D' n I" h比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)2 I0 D( |1 s% h+ u0 y- ^
机器学习其实就是需要有一个预测的过程
) d4 c# f1 L+ n/ ~. Y- A4 t0 t* u
机器学习概念补充:* g+ [, P Z S0 G4 q* |
$ d! t4 t$ q+ T; m/ V7 A. m! J1.说明: X: 特征或属性 Y:类别标签类或预测的值! Y) s5 h, J" |. z6 u* c- Q
/ S. e! V. D8 r0 r训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
& G* q: S1 Y/ r. i' c' `6 R模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)! ]2 g/ g. D) j5 F2 B9 D7 C- u+ c
二丶两种学习方式
& M% n& O2 g7 `基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
; E( d* e# f3 ?+ i; _+ M1 `& C4 U2 X基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据
- `, Z$ w$ c8 E' k' w9 I4 c1 C三丶术语
- s3 ^! M2 X0 S- m2 p3.1机器学习分类的几种概念
- S: u7 k/ ~) g0 Q( Q" ^% g
- z( y# H1 y4 P监督学习: 训练集数据有类别标记4 d6 o5 A6 J2 z3 S' J V' b6 ]% W
无监督学习:训练集数据没有类别标记5 Z5 T/ f/ d9 p/ A! H. u
半监督学习: 有类别标记的训练集+无标记的训练集& J+ D# F! i2 s& S. c# c
强化学习: 常见的应用场景包括动态系统以及机器人控制等
2 g- y4 g, v( c* E5 \监督学习:3 X$ b% l. k- v% `, E- P
) N8 @2 c$ z z. s* b" m# }分类:预测值是否为连续值,不是连续值的预测的话,是分类+ V0 n, J0 M9 t1 k O% ]/ p8 r
回归:预测值是连续值的话,是回归
0 ~; u; e1 n# d- u/ O9 t非监督学习:* O* ~! | ~: R
/ A3 l( @8 e* D! F2 o聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类& g1 b. ^* ]% x3 ?( o5 s0 I
降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
; X5 I2 a C4 K+ W' m/ n, S– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
! |( C- S2 y% f; ^6 t6 t, [6 M& c半监督学习:. v2 M3 K( E, z/ e+ S' P7 Y% {
# @& [ q8 l0 Q+ O; }- k
1.基于聚类的假设
- }9 Q; Q) b" z( t M' e–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
) ]/ o1 L: I& U% s7 C/ G1 N此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
! P: _- s2 F" T. R% D2.利用所有样本再进行模型训练1 o% K" q; c0 h3 @" V
强化学习:
8 ?* E1 q4 |. o6 Z- h( P3 @- E @& b4 b2 x: K
解决连续决策的问题丶围棋丶无人驾驶汽车等问题' c) Q5 V* [/ p/ @
3.2机器学习三要素
5 [1 q' G1 ]0 b
$ g% O+ P7 N1 J# S模型: 决策函数丶条件概率分布 s' l o9 `9 }) Q' A' a6 d
算法: 解析解和最优解(梯度下降法和牛顿法)4 u d/ J5 S! |6 P
策略: (损失函数)评判一个模型的好坏
$ H- X! R' G4 y7 u, L3.3其他* @$ d! t8 L2 z# Y. \5 ~
" L: D: |, K" W4 X$ j降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示 Z5 q* H; ]0 r3 Y; A% | s7 V
抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
: J& {3 w7 K0 F3 f7 h: J- ?" |交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证- m. Y. K8 G! @/ P' q, G6 s
过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂5 ?) a, A. `; \ a" _' p
欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
; m2 U; }" v( c3 V) r+ T% Y模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
( a. m/ q" O9 w. p0 S1 r特征向量: 将属性或特征,通常使用向量来进行表示
7 g4 O! B' {/ ^9 \$ Z训练集: 数据集划分的一部分,来用于模型或者算法的训练% s- R# K4 C- K4 H( {9 I
测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
: `% y9 \! [9 d% |4 D9 [$ _! J# b! [2 @6 k3 q6 c
5 K" c7 s8 B' V
四丶分类和回归问题$ Y* ^0 M$ w8 ]' e, t- q
4.1说明
$ ]2 T; m# ^+ U+ k8 l6 O) [7 u W5 k! U5 j- T7 m) h
如果预测值是连续值对应的问题是回归问题 Y1 ?6 o5 S! N$ t) H2 F
如果预测值是离散值对应的问题的分类问题- W2 ?2 J' U4 f0 r" {
4.2类别型变量处理
7 \- ?( g* A1 E比如天气: 晴天丶阴天丶雨天
' [5 r( V( Y, I& Klable encoder: 标签编码
( b9 d# ^/ w) `9 u8 B8 E9 r" k+ z4 Z' c9 P- T/ L
晴天丶阴天丶雨天8 c7 m/ f' W/ f2 R M6 U
0--------1--------2
) @/ a( r: c% ^7 U' J6 k6 U2 K& L/ [/ y6 ?6 R' V
ont-hot encoder: 独热编码(二进制方式)( W3 Z9 M1 G8 B6 v- ]* Q! T
8 l% r! d/ j0 s+ o) Z( q
晴天 丶 阴天丶 雨天
# o3 ?; T H @9 S% ?1---------0----------0
5 c8 x+ P, O A0---------1----------0
6 p9 E2 n3 i4 m( T0---------0----------1
( r" Z9 t& u& l0 C! |' B& H4 z' s* T; d
总结:通常使用label encoder(标签编码)) w% Z0 s( {3 ]
————————————————
9 I! P% t& B5 _) [4 s5 q版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。/ b9 I3 f8 N" W4 c* W- {5 x
原文链接:https://blog.csdn.net/First_____/article/details/1267175233 _. D5 O; B3 u2 {7 ^
) {/ U" T# i; ~
- H) d& V# Q& x, _
+ \; ^0 k7 u9 u/ Q. {( M |
zan
|