QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2200|回复: 0
打印 上一主题 下一主题

1.机器学习概念及相关术语解释

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-8 10:23 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    - }6 P. g0 B1 q, X. e' [; m
    1.机器学习概念及相关术语解释
    1 F" v$ W; K# j- R2 \* O" j/ g- m' b' S3 c$ C4 Z, m2 m
    一丶 机器学习概念; M" U6 h! ]1 g& A9 Y
    概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能
    3 q1 e+ t3 O4 E1 P* ~# D4 J$ y6 F7 `  r% w
    总结: 机器学习模型=数据+算法
    / v2 D7 F( E  I' e' E0 C" \/ y# D( @" i% ^$ x6 o% b& b4 B9 \
    如果有新的数据,我们只需要带入到Model中就可以输出预测值( g' [+ v2 t+ S5 e! ]& u

    * ?- Y1 c5 S# l7 Y1 `# S0 s3 u什么不是机器学习?* x0 K8 x2 M/ ^2 D$ F
    / d4 |2 a2 P" Y  L$ m$ ^4 Q/ V
    比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
    + u3 l6 I( K% m, V9 u4 i机器学习其实就是需要有一个预测的过程- d- k& `& q$ M8 m7 ]4 y) B. r
    4 L; q- ]% \0 B# ]$ B& u
    机器学习概念补充:
    9 ]3 @0 {) e: ]; B" \" f$ A
    6 b# k9 L: |/ R. }1 R8 M; G+ i1.说明: X: 特征或属性 Y:类别标签类或预测的值
    7 |8 V) Z6 g  J' Z! D
    + X: T  |+ H1 {, q/ L训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.% y" T% d" j4 |! g
    模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)
    & ?( c3 i+ ~& Y8 M! n# b二丶两种学习方式
    / c2 N: L" \* z6 N" e+ M基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可6 y- t7 e- K" X* j
    基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据5 B0 q* h! z$ |$ v
    三丶术语, @, ^0 k. Z; J; B+ ]  V
    3.1机器学习分类的几种概念, q, ?" K" C+ M1 D3 K4 |
    ! f2 i7 a* J3 V/ T
    监督学习: 训练集数据有类别标记, p. f& O0 K8 ^, L! K: s8 {$ f
    无监督学习:训练集数据没有类别标记
    : _- l% M8 b4 a( v半监督学习: 有类别标记的训练集+无标记的训练集
    * ]% V5 }( H  y/ z" e/ S, t' Y' u; X强化学习: 常见的应用场景包括动态系统以及机器人控制等! k2 a1 t0 c( N
    监督学习:; d0 M. U, G) T( Y
    / _7 E$ f' W' \6 f; z) E1 N$ Q% R2 h
    分类:预测值是否为连续值,不是连续值的预测的话,是分类4 h5 X/ E; |+ g8 O, n; l4 o# }* ?# _
    回归:预测值是连续值的话,是回归; n0 A) s( \& E/ w$ D1 n
    非监督学习:9 z4 a+ p8 c1 l0 P0 N0 }0 g% J

    ( R: h0 B/ `5 F' e, n聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类6 r9 f- c; M- \. r9 |
    降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的' C; H+ c/ ]  m' `5 B0 B
    – 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2( @) S% I& ^; I3 ?' |5 [5 c' n
    半监督学习:4 |( ]/ Z" x3 @& |5 N  t' f: W
    4 l. c, W9 T$ N5 @* ^7 s
    1.基于聚类的假设
    4 P/ F4 `7 }) e- C–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
    ( y& z! x% H4 p( }. v5 P7 x此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签# t, p& A0 J, \1 Q/ I$ m
    2.利用所有样本再进行模型训练
    / `8 o) j' V7 _$ U6 F: B6 C强化学习:9 ^( z7 w2 h% Z' a" U: N

    * V8 P3 C. w+ @% J( {% U! Y! C解决连续决策的问题丶围棋丶无人驾驶汽车等问题8 t2 x1 y0 T& J. f2 u! D
    3.2机器学习三要素
    - H$ ^3 U, c8 Z& f4 r2 N3 a6 N1 i: g. x5 M, Q+ {% d
    模型: 决策函数丶条件概率分布
    8 _- D% m, b0 X  g算法: 解析解和最优解(梯度下降法和牛顿法)7 b% f7 l: K6 z8 \, G
    策略: (损失函数)评判一个模型的好坏
    3 m) ^/ y- x7 E  ~7 |3 l3.3其他4 }5 U) {- y( q0 A

    ! @, w9 g2 c8 a9 w  x# D降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
    " B: f- f0 |* b; l抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决( n! @0 k9 N4 a1 Q
    交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证) Q3 {9 a3 c" E- Z
    过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂
    7 T" {! f# {" [& F3 r% j! s0 j欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单- R+ j# ]$ d# R! v  v4 f' H0 P
    模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
    # ?$ u6 F) W$ W/ X3 N特征向量: 将属性或特征,通常使用向量来进行表示9 _. Q( o: v; w$ }
    训练集: 数据集划分的一部分,来用于模型或者算法的训练1 P8 g# }! ^; a" y9 q' R
    测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
    ; L6 ^- @- v3 ?  Y& n0 |0 s
    ' z; d% L8 L( f; m
    * l+ y* h. Q/ i5 M3 X* k四丶分类和回归问题# {$ D! q& ^7 {* \8 y
    4.1说明
    " U" N* g- W* l8 [' N. [2 B5 ?0 K
    如果预测值是连续值对应的问题是回归问题! s, c% e. Z+ u$ K( S- A; X
    如果预测值是离散值对应的问题的分类问题
    5 X! _3 ]% p$ v% b1 x4.2类别型变量处理3 ^, l* y3 G. l4 P5 n  N
    比如天气: 晴天丶阴天丶雨天1 ^: Y! q! G  c4 ]
    lable encoder: 标签编码
    4 G+ F: ?' W7 X7 t+ J
    ( C: X# ~, ]3 C5 p晴天丶阴天丶雨天6 Z( g0 ^0 H$ R+ N
    0--------1--------2
    5 B+ X0 y1 C3 U: N% R' F- u% m0 }+ W) Q
    ont-hot encoder: 独热编码(二进制方式)* c+ G" K  h! Z4 u( W: @2 S/ a
    4 R; ]$ T( c' d7 \
    晴天 丶 阴天丶 雨天
    3 @3 v& D/ k# L1---------0----------0
    " [4 y9 l+ @( ^4 m- v: }0---------1----------0. b( A2 Z/ S  N& v. M
    0---------0----------1- R* v5 s) U" u

      k5 s9 r2 f$ H: @# i4 _/ \总结:通常使用label encoder(标签编码)! b, r1 E% X) C' f+ n' D' d9 x9 C
    ————————————————
    8 i2 }. W2 z3 h( l* L7 ?: I" _版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。# k1 L/ h) I! ]7 ?/ X
    原文链接:https://blog.csdn.net/First_____/article/details/126717523" m* I+ m2 Z' Z6 e( l5 \, A6 q1 o: T

    5 h; V. Z. Y2 k2 J2 q% q* D! k0 Z# f4 Y
      k" w: v8 h# b4 k6 w9 C
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-15 22:27 , Processed in 0.349270 second(s), 51 queries .

    回顶部