QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2177|回复: 0
打印 上一主题 下一主题

1.机器学习概念及相关术语解释

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-8 10:23 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    6 k; _" j: T3 b9 V
    1.机器学习概念及相关术语解释0 Q* u  v+ m! A' z, z

    # P6 H1 J* a6 ~- ^7 t一丶 机器学习概念4 T/ ~" ^1 U6 r, }/ g6 B
    概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能/ c2 F- _) _( \5 t5 a
    , q7 y) k. X9 j6 w$ Z9 O8 U# d
    总结: 机器学习模型=数据+算法$ X  `% ?6 a% y
    & P$ O3 \9 m4 c
    如果有新的数据,我们只需要带入到Model中就可以输出预测值5 D$ ~% Q- S) e; a. I- Q
    5 n: z) e6 F# L- G& q; v
    什么不是机器学习?
    9 a1 n$ z0 m/ L, |
    * a" Y- w4 }7 w7 M) N- n  N0 R比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
    . y  A# Z; X% E6 `机器学习其实就是需要有一个预测的过程
    2 e- Q6 q" G- l% r  G- K% ?0 G6 h5 S, G: N' I7 ?1 [
    机器学习概念补充:
    5 V+ ]/ G; j4 l# `( U, i6 ?: \1 H8 v' N( F
    1.说明: X: 特征或属性 Y:类别标签类或预测的值( `3 d3 e4 q3 Z- |2 t
    7 F! b1 Y4 A2 U* b& a) c( ^6 U# |4 q1 W
    训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
    + ^  e! h- h9 K( Z+ ^* s; E4 c模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)" m% l1 U6 S* U$ n) N  }
    二丶两种学习方式" H: \8 D" A$ m5 z$ i
    基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可* y' C  \; B9 l/ S7 F. s
    基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据5 q; l- @% F& v& {
    三丶术语
    8 y+ V) `  f) C0 {3.1机器学习分类的几种概念
    5 F0 r9 u( W0 W6 J* c
    . e+ J: ]' Q1 K7 x% ^- P# A监督学习: 训练集数据有类别标记
    ) w0 k( w' v8 i无监督学习:训练集数据没有类别标记
    4 ^) C; F( l$ F: O6 f$ y( G9 z半监督学习: 有类别标记的训练集+无标记的训练集' C( o! g9 Y# m) N3 `7 N. C7 V1 Y
    强化学习: 常见的应用场景包括动态系统以及机器人控制等* Y; U0 I# x: j: y
    监督学习:; t8 Z. c: |0 r) U. y( q+ u1 h3 u7 Y

    : _7 s, U; |5 _$ _1 U5 C7 Z; k分类:预测值是否为连续值,不是连续值的预测的话,是分类1 l/ l' ^9 ^6 a: g  [; z, c
    回归:预测值是连续值的话,是回归
    + v& ^+ s7 t& n3 n9 G非监督学习:; F, K/ D; C+ h3 \6 Z
    3 d6 Z! ]0 A( g' M0 J
    聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类
    - r+ k5 o+ b7 [: b降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
    ; h( R' d" {4 m# ~' X- l2 g: N/ T, o– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
    + F$ a  h) ]6 f7 ?$ l4 I半监督学习:9 D3 |/ B+ ?8 B) t, x7 R
    5 L" n% W  u; @9 H' J; H
    1.基于聚类的假设6 a1 d& [/ b- x0 b/ q% F
    –有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,( L, ~& F* o" p- p) \
    此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
    9 P% g5 E1 W  R" e9 u, M2.利用所有样本再进行模型训练
    2 v, c/ F$ Y/ ?% x9 a强化学习:
    1 p/ r  U8 U3 q4 ]9 j' ^6 p2 T$ l3 Y" K
    解决连续决策的问题丶围棋丶无人驾驶汽车等问题. k! e6 B1 b1 N8 c
    3.2机器学习三要素
    ) z- R6 v; k  y, J  M. V7 D+ z, [. O  D0 k
    模型: 决策函数丶条件概率分布& [9 f: I* u$ w6 n" i+ l% ]1 O
    算法: 解析解和最优解(梯度下降法和牛顿法)
    + d7 c8 L7 n: T* f3 w: y  W策略: (损失函数)评判一个模型的好坏' D, F1 @$ a. j7 B( m
    3.3其他  I7 E) k3 Q; J, x9 Z- n$ L  ~( D
    ' H0 F: l3 t! M# X. V  ]  X
    降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示, A5 Y+ a; M( C+ Z3 f# D2 \* |
    抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
      ~1 X; h2 I$ p' V9 `4 d0 @交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证
    * [+ w3 X. F" F  Q% s: B# I过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂) `- a5 F* A" B  w: w
    欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单  i. A+ L) P5 E1 i* J6 S
    模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合! b% n6 w1 Y$ g7 g
    特征向量: 将属性或特征,通常使用向量来进行表示
    $ q1 r+ W% k0 I9 Z' t训练集: 数据集划分的一部分,来用于模型或者算法的训练
    3 `( G: s" l& Z& o* I! ?1 \测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
    ' y# H6 f' U& y2 q
    - I5 L, F. G: Y' ^( {3 b) g: N. P; J7 R* p+ R6 r
    四丶分类和回归问题+ u# O4 w7 g6 h
    4.1说明
    : ~2 w4 d! V- B& X% m
    * U+ }5 B# z1 O* x如果预测值是连续值对应的问题是回归问题
    6 N$ @" U$ E+ h  }2 U$ S如果预测值是离散值对应的问题的分类问题" M. Q3 g* Y6 F6 X2 O: }0 r# {
    4.2类别型变量处理
    3 N$ z9 |, l1 u: C4 L5 F. E比如天气: 晴天丶阴天丶雨天
    ' `9 ]& i" J. j/ p+ y2 I  llable encoder: 标签编码5 A0 L1 B( \) @. K" _3 H
    $ X9 z7 E! w9 z2 O! g  Y
    晴天丶阴天丶雨天
    5 Y( P3 W2 W& a- O: G$ c0--------1--------2
    9 M% j. l1 u& @4 Z' s6 U- G3 j
      ~+ _6 _% ~: Q+ g: K9 M* i* ront-hot encoder: 独热编码(二进制方式)( `. B  r7 M, B& r+ l( a$ z

    5 P! k& V/ C5 C晴天 丶 阴天丶 雨天
    ! h# y9 d9 b$ J- O% L" {+ ~1 q1---------0----------0
    5 [5 h6 n, E' h) k6 E% Q8 f0---------1----------0
    ( f! f% H( k! Q: w7 b9 i$ m0---------0----------1
    % a5 l8 U, V. y8 g- n9 D7 n6 V. l3 I7 w
    总结:通常使用label encoder(标签编码)
    ; \9 c$ P) T: a7 Y4 s2 {————————————————* x3 D4 k  H0 u) _; D
    版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。" j* P, q" `) C; V5 Z
    原文链接:https://blog.csdn.net/First_____/article/details/1267175238 p6 N8 G% i; Q) p; a) M% |

    . Z' V1 ?* C$ Z: y: b! l  O4 u2 y8 L# x8 @8 J1 I$ p- ?

    ( v  R9 V3 U" i4 ~% T" l
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-13 09:31 , Processed in 0.394256 second(s), 51 queries .

    回顶部