QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2173|回复: 0
打印 上一主题 下一主题

1.机器学习概念及相关术语解释

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-8 10:23 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    3 J* m# Q; E* B9 H
    1.机器学习概念及相关术语解释
    & F1 F: S% {- N
    , h% `* r+ r" Y9 E一丶 机器学习概念* a( ?% F* \9 \
    概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能) ?/ o: |7 K6 s' r1 c. ?

    # w5 e9 [. h, l' [总结: 机器学习模型=数据+算法: m, E/ Q8 G/ D' R! k, e

    : n* H( ]4 Q8 U# n% G( R如果有新的数据,我们只需要带入到Model中就可以输出预测值
    1 D/ }; G/ ?" l7 o- D1 a. D! t% q$ E* _: G& o* H4 R' \
    什么不是机器学习?* `( t( z% e* ?" J) p  C
    6 `, ?! I/ k7 J4 y! J: r4 m+ ^
    比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)& _) |/ G9 _# c; _& H
    机器学习其实就是需要有一个预测的过程
    2 U; T. R; z# A& F/ k0 U
    ( @0 [9 F* L7 z$ }% b机器学习概念补充:$ l" a+ `+ E  o' U3 j4 ~. v3 `4 p
    . o+ H+ u! C& w  Z0 V) p. F
    1.说明: X: 特征或属性 Y:类别标签类或预测的值
    ' M# ?2 K( r+ H* e7 }  N9 C" |9 |" W8 r/ r9 ^
    训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.) X# _# z: ^7 q, U
    模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率). @- R, q' d5 s! h
    二丶两种学习方式
    8 _% [5 t8 P6 n0 @# ^+ C$ X6 x基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可& k- @' b7 |/ F  {7 k+ l+ h
    基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据
    ) o0 q% S) `6 r! w6 w+ L6 p' B三丶术语
    1 B! i- i7 {+ S: E1 |8 E. ~3.1机器学习分类的几种概念( R7 G2 `# c* ]$ o. i, V3 a: \

    . b' ]! N8 D4 }5 u# ]1 N/ s监督学习: 训练集数据有类别标记
    ! \+ d1 y- f7 n, W( v无监督学习:训练集数据没有类别标记
    4 e8 [; V/ U( P& ^3 o% k# \半监督学习: 有类别标记的训练集+无标记的训练集
    + O3 V9 t- s; Q. H' ~- H6 Y/ P4 i+ C强化学习: 常见的应用场景包括动态系统以及机器人控制等
    ; [  Q/ [7 s7 W2 ?% E% z+ @监督学习:' P! e5 z3 a4 H3 F' }' B# }
    3 C0 Y6 Y% R7 U1 L' h' x
    分类:预测值是否为连续值,不是连续值的预测的话,是分类0 b# d) h  ]. [9 z& v
    回归:预测值是连续值的话,是回归4 u$ D) p( c0 R( k$ }2 c- \  ]
    非监督学习:) w1 d/ |0 ?: v  u* g& ~

    " a0 m+ e1 M6 `7 M聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类
    - G( R0 \( U6 i% _' ?$ ~# w4 j降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的& c* X" H6 u  z7 S% J( \
    – 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
    8 ^; p. C8 ?2 x8 j1 ?半监督学习:
    0 [- c: O- W* B3 p  J' D: O0 O; z8 A& P; [- ^
    1.基于聚类的假设3 G* J/ i2 Z( s  Z! I' _+ x* E
    –有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,0 E/ J, H7 ~7 T6 `& |( C. \& t
    此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签& y; \* v5 v7 s* d1 X$ E
    2.利用所有样本再进行模型训练
    : p9 c/ T# s) A; m( _5 R6 q# L强化学习:' h0 C; @( f1 t+ V" a* y  j6 M

    1 O- e4 l) W" f& `+ K5 T解决连续决策的问题丶围棋丶无人驾驶汽车等问题$ t: p2 |6 a+ U5 v( s' W) i
    3.2机器学习三要素
    ( d9 z9 v6 n% @6 n! Q1 ~: _2 W! i: G9 J
    模型: 决策函数丶条件概率分布
    8 I7 p4 t8 E& e& F) ~% e8 A算法: 解析解和最优解(梯度下降法和牛顿法)1 ~$ q$ a4 Q/ Y* ~- E
    策略: (损失函数)评判一个模型的好坏8 ^$ I* B/ ?" `# q3 i
    3.3其他, R& [( U' n; }" ^- A2 E

    5 l4 ~* j- R% f' a8 @4 m& g降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
    , G6 {" l( H* @抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
    3 {6 V( T, D: M9 ^2 O- a交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证
    0 f/ |5 {, E9 f3 w过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂
    6 }1 i" Y9 }* D1 [# j3 ]8 x欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
    ( X6 c' i0 D& W2 \7 w; g8 X3 }+ V3 M2 |5 C模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
    1 V7 ~5 a7 K  F+ f5 G) u& z1 ~( Q特征向量: 将属性或特征,通常使用向量来进行表示
    + S& a8 s, b/ s$ S! I. N训练集: 数据集划分的一部分,来用于模型或者算法的训练7 s, A7 q$ |  Q6 ~+ `) \# t
    测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
    2 N9 E, [8 ^' [! I9 R4 ?
    ! `$ ^1 A( p% F* L* |! s2 Z4 E- A/ {3 Y  S; ?& z% L
    四丶分类和回归问题& r! q- U4 R) J( H1 F
    4.1说明! H8 t$ k& Z; b9 \

    8 p% t% Q! H. x3 W, o如果预测值是连续值对应的问题是回归问题
    3 M6 `5 E# |7 ^; m3 l如果预测值是离散值对应的问题的分类问题* Z- ~0 V/ r) o- b5 }, S" ~: w
    4.2类别型变量处理$ V) K/ l  x0 T* }
    比如天气: 晴天丶阴天丶雨天, N. m& r# ~- |1 P$ A3 o" R
    lable encoder: 标签编码  p5 u! q' ^1 {
      E4 \6 h/ _6 h* d' }; |
    晴天丶阴天丶雨天; N" N. @, U( ?; l" k
    0--------1--------2
    9 a0 v! B: P" q( G$ [9 s+ l( N8 H% K9 p
    ont-hot encoder: 独热编码(二进制方式)) Q! m$ |& j8 Y: `" O+ E+ m  v

    ) m* H# I. ^8 B晴天 丶 阴天丶 雨天2 i4 m9 w5 Q2 x9 `: D. m' I
    1---------0----------0& u* z) {" E1 s2 D- w; A& T
    0---------1----------04 S3 z% C. @/ P" N
    0---------0----------1  Y: m0 j& k3 S% u( t; P/ G6 L
    $ P% s8 w5 V4 L* s
    总结:通常使用label encoder(标签编码)
    * H$ \- [( K% g) x9 l————————————————2 w1 B4 q( n4 L4 I; B
    版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    ; w! ?- J4 ?* Z4 ^: M! k4 H9 p& q原文链接:https://blog.csdn.net/First_____/article/details/126717523  g" P! x* x: |  }9 r* X. z% l# O
    8 i4 [( r( G' G9 m0 n

    $ v  t+ P6 t$ r% J' A9 h( _' ^9 g) u: F; g
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-10 16:32 , Processed in 0.297147 second(s), 51 queries .

    回顶部