QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2198|回复: 0
打印 上一主题 下一主题

1.机器学习概念及相关术语解释

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-8 10:23 |只看该作者 |正序浏览
    |招呼Ta 关注Ta
    / U. w& ^1 ?4 i" f6 m5 r; q
    1.机器学习概念及相关术语解释
    / F6 y( A) A  b  M
    ) E, o9 v# k1 P& \) P一丶 机器学习概念
    * j. b) [# k. O) W, H概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能
    ( s5 P* G% V" f. v3 Y
    ! m* ~" G* d" k* ?6 ^总结: 机器学习模型=数据+算法
    , ^4 E# E9 N& p5 I% P, b6 v' g
    $ D( A2 C* c& y: l( Q" V5 V如果有新的数据,我们只需要带入到Model中就可以输出预测值4 h1 Y2 d6 ?( p( d
    0 ?3 {/ v9 y9 K7 n- z& p
    什么不是机器学习?6 R6 g5 Y+ P- T+ f

      t8 |5 j' c/ O3 u7 j比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN); w3 L% Z# ~- _, l! ]5 n& j, l$ n
    机器学习其实就是需要有一个预测的过程- x0 {) c# J' J* ^
    ! q  U1 z7 ~9 {+ V0 K2 P; V
    机器学习概念补充:
    0 O1 i+ I9 v* c8 ?! {+ d1 Y
    + x0 \# d  ^: s1 y1.说明: X: 特征或属性 Y:类别标签类或预测的值
    5 l4 I* D' ]* D/ k. g9 B; V; R" f9 X; }' \% W5 m1 ~
    训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
    6 h. E! \) H) I  b/ ^2 T) g模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)
    , s; s& D1 C8 }8 y( \二丶两种学习方式
    ; L: ~8 J0 i2 N1 {, a* [基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可& @0 m4 l/ }7 N! s6 n
    基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据
    / f" q- H/ j# ^三丶术语
    . m( ~  e& V8 @$ D3.1机器学习分类的几种概念
    , A+ g, m8 q, [6 [
    $ C5 p. t$ m7 T! X! ]监督学习: 训练集数据有类别标记6 G( D7 N2 m  n0 m
    无监督学习:训练集数据没有类别标记1 H; m6 d! I* `8 L) F6 w
    半监督学习: 有类别标记的训练集+无标记的训练集
    & Q& D9 I& N: z% G2 A. E% \; q' Z强化学习: 常见的应用场景包括动态系统以及机器人控制等
    1 [$ P: q$ [  j0 x& J3 J监督学习:
    8 z# X8 A6 z9 r8 w. O1 I1 e5 I: X) j( ]% W
    分类:预测值是否为连续值,不是连续值的预测的话,是分类
    / w1 U1 l7 E' S& J回归:预测值是连续值的话,是回归: E6 Q8 S# T4 h: }6 c. W8 C
    非监督学习:1 k% |/ }+ M' H! U( E

    3 N/ r2 H5 p, G! B聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类
    ) ?. ~" k8 ?1 v6 U+ I降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的# \1 ?5 }( M3 l
    – 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
    . F+ w8 h. v0 W半监督学习:. T7 _0 d' }8 [: \

    ' b& A9 K+ `& a2 l! P1.基于聚类的假设) z9 K! B+ }/ j3 N; H" D$ q
    –有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,4 o. K3 r" a3 |7 q! I" E# }
    此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签. L8 v4 I- @6 [& I0 S; N
    2.利用所有样本再进行模型训练" {( d) k/ P( [
    强化学习:, A- n. B: L, F& R: T

    ! F4 ]) w, @" g/ a/ T1 a6 \# l/ z解决连续决策的问题丶围棋丶无人驾驶汽车等问题
    % ]( ?4 U" u# Q, D( H0 T3.2机器学习三要素
    4 w5 D( i) U; p; Y! D! h% v; Q4 ]& L7 q* u5 z% ]% j% F) f- c
    模型: 决策函数丶条件概率分布
    ! ~1 d' l' c* C  ]  c算法: 解析解和最优解(梯度下降法和牛顿法)
    - d! s. |6 x9 F8 k策略: (损失函数)评判一个模型的好坏* \1 T5 K8 z2 k7 P  o: ]' t3 r6 r
    3.3其他5 C7 \8 r$ |+ W+ Q, H  g

    * a0 I$ [- G3 |) d% m降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
    , \) _/ v% s6 q* P抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
    - m# C% O$ o% M$ s0 P交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证
    % D+ q; S1 p! W过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂  D" H( `) g: R9 f6 ~8 l5 q
    欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
    & Q: q2 I. d6 G0 W$ H# o模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合' ?- F& f8 z3 a& W; x+ c
    特征向量: 将属性或特征,通常使用向量来进行表示0 ]; P+ R- f" _) z
    训练集: 数据集划分的一部分,来用于模型或者算法的训练# I3 ?* `$ h) B0 v! K* B
    测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏4 i9 A% T: Z0 z, @" {8 _
    & s3 X: l: }( n! K0 n$ w
    3 A  Q+ x( J$ q9 m6 N" |8 S
    四丶分类和回归问题
      \" e; N. L8 C' L4 w4.1说明( j8 u! P1 i7 s& x) W) L

    5 J6 d; x1 [/ @/ K" y如果预测值是连续值对应的问题是回归问题+ r9 A# I8 P5 O  w( T9 u9 q& I
    如果预测值是离散值对应的问题的分类问题9 _) a" J8 Z9 X: [9 C) f6 m3 X
    4.2类别型变量处理
    " K( E- R: s: ?4 m4 O  r- [比如天气: 晴天丶阴天丶雨天- \% \8 S( r; k: i: h
    lable encoder: 标签编码
    . W) W9 h9 K8 v, `1 q% s4 }$ m- s; n8 n# E2 B% y. l' n
    晴天丶阴天丶雨天
    5 D" T4 r6 w, l0 U% t1 F0--------1--------2
    5 ^/ S* E7 H$ r, s4 I6 H2 H# W0 |3 ^; l+ k) U- }
    ont-hot encoder: 独热编码(二进制方式)
    * P5 z) _$ c* Y0 r( \! v; _5 V
    , I3 B( c  a% K' r% d8 F- @# j! @+ k晴天 丶 阴天丶 雨天# Z0 C$ s$ \. B0 `! V9 S! W
    1---------0----------0
    . e* i8 X7 N2 [4 J8 W, {0---------1----------00 l. ^% @0 W" c- o9 l1 V. Q6 X' L
    0---------0----------17 y0 r+ V) N5 E9 L7 }0 O% h& P
    ; C* ^5 |2 R1 C9 i1 b7 H
    总结:通常使用label encoder(标签编码)2 T9 {. G- G# y  N: |& H3 T
    ————————————————
    / C( Y: |6 y& ~* x$ x5 U版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。$ a6 w2 D0 V: `$ p
    原文链接:https://blog.csdn.net/First_____/article/details/1267175236 M7 H  r. w* q8 c' S' w  ?; ~

    5 d+ N: B/ j! Y7 W9 t) y! G2 {$ e( e! ~: J
    5 d5 q9 v0 l+ ?1 f$ K' i
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-15 07:40 , Processed in 0.419508 second(s), 51 queries .

    回顶部