- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563306 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174215
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
( _# @' ~0 _+ s
1.机器学习概念及相关术语解释
* r- k& L( Q4 k
4 J" v8 i. P- x( w _( {一丶 机器学习概念( p/ t7 O, U! q3 @. j1 w* e6 z
概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能
' z8 F0 M! f& C5 ?2 h! l9 O
. [ M+ r( Y, {# ^9 @, }6 L- ]总结: 机器学习模型=数据+算法
* k! c- r- J7 Y+ N* {# i/ Q7 o# v6 T
" ]/ @: `+ {. X, M1 Q如果有新的数据,我们只需要带入到Model中就可以输出预测值, `7 g0 K. `3 F" J9 ?+ x6 C
9 V5 Q, R. W" { v8 G6 U. F# L什么不是机器学习?4 \) D: ? m4 P- Y8 A' U5 E* ?2 L
( M8 [9 z9 o3 Q- e* L! n
比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
. v3 I0 Q- Y* ^! v4 O机器学习其实就是需要有一个预测的过程* T& t/ T; @; Q" I& z: H9 K
: \0 ?0 w9 [. X' _- P/ S. Z ]机器学习概念补充:
+ K6 \% ~ O! n8 g8 M/ O2 b. d) ~4 i7 W3 N
& J& N- L1 Z3 A2 N) Y1.说明: X: 特征或属性 Y:类别标签类或预测的值
* S# T% h# O: r% K5 }) j7 ^' h4 O; ~5 Y$ l% O8 D+ H( a% e
训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.. b+ z0 n3 K9 ~
模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)
. m- A9 a% n3 R/ Y5 Q9 u二丶两种学习方式) u% E3 z5 L/ i- D6 A0 z
基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可; E6 d0 h8 b z
基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据" y# |9 U7 |: L3 G5 f
三丶术语, p# r# L' i. A: O/ Q) y
3.1机器学习分类的几种概念) V7 |2 m" M. g* ~8 ] d* ?, ?
0 e4 l' @5 U+ i+ M. B! R( ?
监督学习: 训练集数据有类别标记
1 _* Z" T* [! e无监督学习:训练集数据没有类别标记# j6 p! ^8 v, {
半监督学习: 有类别标记的训练集+无标记的训练集' L6 Q m+ X% f2 r# v. U% m$ o/ J
强化学习: 常见的应用场景包括动态系统以及机器人控制等
6 v( q7 g1 b# l$ _监督学习:9 S ^. X r: l. n- B
3 _2 E# I2 t' `7 W+ w- m2 Y4 v分类:预测值是否为连续值,不是连续值的预测的话,是分类# d c0 a% {, F/ n
回归:预测值是连续值的话,是回归
( G. n9 }# R1 o# j( e$ @非监督学习:
! ?( O5 {/ z) ]1 G3 @9 k
$ }5 A o; P! K0 c, @9 d聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类2 Q; y4 _! j( g, G/ R& Z7 h
降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的- ]" W5 y" s9 k4 Q
– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2* D7 Z+ t& Q6 W$ \
半监督学习:( _* F7 z$ f4 T \) l; i
# r, I3 @6 a9 i1.基于聚类的假设& T0 \" j# Z: ~) b1 n+ }& ^* B
–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,& _4 v" J. c2 {$ A( O4 _7 E$ G
此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签, q9 C8 |8 z4 `4 d/ B) s4 ]
2.利用所有样本再进行模型训练
6 q3 m( {+ Q1 M% P( L强化学习: L5 T4 b4 S+ R' N$ _
) G* P8 s) E; e1 c7 D) P- y解决连续决策的问题丶围棋丶无人驾驶汽车等问题
0 g$ A/ Q% i. D( k5 \* P& ~3.2机器学习三要素* g; M0 E( b8 R9 a' ~: C
- y K: b7 |9 P
模型: 决策函数丶条件概率分布0 S+ n2 R1 s( p0 ^9 p* Q( z
算法: 解析解和最优解(梯度下降法和牛顿法)! v+ T$ P/ o5 X) G- E& k
策略: (损失函数)评判一个模型的好坏
" b. F; K A$ f" g2 B1 d3.3其他
: p' a0 \7 ?/ H G% M) a: l" [+ n, P: D* _5 j8 f
降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
) f1 {) y( I) m/ g- a9 J8 d9 [抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决" `& _' ]# W1 @ P7 Y/ K
交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证* _9 G+ _# W& ?/ Z
过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂
- w, s D1 o0 L* u Q2 b欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
, `& S6 o5 Y) y, m模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合0 U' I( I$ K" p5 _# o7 f
特征向量: 将属性或特征,通常使用向量来进行表示
* A8 W! h4 T9 L' y训练集: 数据集划分的一部分,来用于模型或者算法的训练' r/ H: j; a) |, v5 a& C
测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
8 G: r' p, w, [& m7 S. G$ N* g3 k6 L4 Y9 D; o0 [
' T- L; Z: P4 Y" v& K四丶分类和回归问题1 g; _" o4 t4 Z4 l9 n C: q+ F( \4 H" P
4.1说明
& g3 X! `/ s8 {" U; U2 u4 [( c, ]1 K; Z
如果预测值是连续值对应的问题是回归问题3 P# ^; z& H' `' O
如果预测值是离散值对应的问题的分类问题5 ]! v' A8 M8 g$ G/ x( E
4.2类别型变量处理
6 d5 {& U- W/ w" ?; ?0 ]比如天气: 晴天丶阴天丶雨天
. ^' j" _ l+ J! @* f# Nlable encoder: 标签编码. V- z8 w. `" e- n n9 s8 b7 u
# V1 [7 ?. M0 R E" z# N5 o
晴天丶阴天丶雨天
( y. P: Y' p9 f$ M4 D( x0--------1--------20 d& C* d u# C; w" z# U+ t5 o7 A
3 n4 Q/ h) e6 V6 U j* }ont-hot encoder: 独热编码(二进制方式)& f8 r* w. p* [5 {" J
+ t5 d y+ X, Z! S7 A, c% }: j; G晴天 丶 阴天丶 雨天, g' p( k& F( i" P B
1---------0----------0
4 h+ ~/ c# N1 H8 D- k0---------1----------0; W2 W6 N* b$ r1 w& Q( P, Z/ ?2 p
0---------0----------1
7 y% I( ~( T$ R/ u8 h* O/ f9 Q p+ s% p1 q) R/ w: |3 o# p
总结:通常使用label encoder(标签编码)
! @! Y0 d0 \* ?8 O4 h/ v————————————————
6 l% K$ C$ t7 \0 b9 i5 J( }" K版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。6 s' g' D' o) b2 l& ~' ^ s7 w
原文链接:https://blog.csdn.net/First_____/article/details/126717523
9 W" |5 d! z6 p3 r
) L o( |5 K! W, U" N- W* P1 A6 |1 N2 K2 c9 x h7 l: ]
* o) f* H; D1 [9 u |
zan
|