QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2172|回复: 0
打印 上一主题 下一主题

1.机器学习概念及相关术语解释

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-8 10:23 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    ( O9 g* W4 N/ G
    1.机器学习概念及相关术语解释
    5 s' z, u' I4 f+ I; F3 m& E8 O# ^/ T7 ~3 [8 ]) p( A' o! l  x9 n
    一丶 机器学习概念
    4 K% _$ X2 o# O/ T  g* e9 R概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能
    . A3 z/ ]- q% E. y
    0 z' L+ U: w! d) i9 h2 I% b# f3 f3 O! X- _总结: 机器学习模型=数据+算法2 Z6 s% V6 y: I, q6 f$ t& k

    7 s" P) v7 }" p% I如果有新的数据,我们只需要带入到Model中就可以输出预测值
    - [8 j, o3 b/ K: v' @, a: O% Q3 ?5 E" y0 G+ _! @: `  o' U
    什么不是机器学习?6 a0 |" O# n) H: B6 i) t" w: s, }
    : V+ R/ ]: E5 G5 R
    比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
    8 ^/ w' Y0 ]; O机器学习其实就是需要有一个预测的过程
    0 h" i5 h! e* f
      a  {( [6 X  k" v. X机器学习概念补充:8 J6 ^) g( {" p, R7 G$ ^% z4 n
    ) \, \" k  X2 P2 G- y7 r
    1.说明: X: 特征或属性 Y:类别标签类或预测的值
    3 h: @+ K8 X8 P, w
    2 H# e; Y4 K1 W& \1 D训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
    ; o, j; f6 k" l9 S% y( S2 g5 b模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)5 {0 ~4 q& y$ g; Y2 ]# R" M
    二丶两种学习方式
    & D5 ]' W9 F; V! ?! @+ ^基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可  U* ]/ K. E- z
    基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据
    * f$ _0 g) y4 P- }三丶术语
    $ `4 I# ]/ n0 z& @( N3.1机器学习分类的几种概念
    ( }4 d% e/ [- o& u
    3 e  Y& W  F) g8 S; x& Q监督学习: 训练集数据有类别标记2 g5 ^6 k2 ]4 n% W
    无监督学习:训练集数据没有类别标记
      ~5 a1 F% Y( D% u半监督学习: 有类别标记的训练集+无标记的训练集
    . s; D# ]' L+ r3 z强化学习: 常见的应用场景包括动态系统以及机器人控制等- O  _* P$ q9 j% j/ o
    监督学习:
    ' n) W# }& r1 M. M/ y7 L# {& p9 y7 R" X
    分类:预测值是否为连续值,不是连续值的预测的话,是分类
    9 R& t; _8 ]* L5 K回归:预测值是连续值的话,是回归
    9 e3 W* H+ w* o$ l非监督学习:7 p# Y6 v* A$ |( Z4 ~& ?

    8 m* G% V+ r* u  m聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类
    - \/ _0 ?- f" c降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的: W+ P* u  k5 @% d& k9 L8 |
    – 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
    7 T* _$ Y5 P0 n: Y半监督学习:
    , _% Q. v2 r5 `
    7 h. I! B5 b! I$ l5 u8 ]1.基于聚类的假设6 r+ ~9 v' h& f
    –有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,: R4 r3 r0 j5 J( }7 Y! K2 B1 h
    此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
    ! z- f: O* n/ m/ {2.利用所有样本再进行模型训练
    & }: }/ I4 s; i: x, o强化学习:+ y: u4 |& g, b' r
    & |' v" V/ x, w  q
    解决连续决策的问题丶围棋丶无人驾驶汽车等问题
    ' x3 s6 H; w4 `! ^& Z2 m6 L' Y/ e3.2机器学习三要素: g" ^5 e) @* f. c! j
    7 o! O8 m; ^* X- _! l
    模型: 决策函数丶条件概率分布4 E: N- p; A9 M( p6 p
    算法: 解析解和最优解(梯度下降法和牛顿法)  Y9 F* ?; ]" a
    策略: (损失函数)评判一个模型的好坏
    # ?+ M, Y8 U/ J8 e3.3其他
    8 C& O: E4 i. c/ x
    7 m. i9 p; s( w! }: B. B降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示- t9 A0 z! e9 h+ o! v% b
    抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决3 D( j. n3 l! L' j8 e
    交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证. i; d2 s' q  U- o' Y1 n
    过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂
    9 ^+ y0 I1 a( q. {+ N: d欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
    ! F4 ^3 O* y# p+ V7 Z: K: B模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
    + o) A# L( p1 j特征向量: 将属性或特征,通常使用向量来进行表示- H2 K5 J$ O3 f- j/ p
    训练集: 数据集划分的一部分,来用于模型或者算法的训练- B; Z" G$ W- E3 L+ ]
    测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏" f/ m- O3 J! m0 P+ N, w5 r. a; N& v

    , y. O, ?, h. U/ V. o% j
    5 n$ M0 G. |6 ?四丶分类和回归问题4 x' M7 N) R) w- o8 A& [
    4.1说明. B5 t2 Q2 U* t+ W& V) d
      B8 T; r! X$ v# p3 g) {
    如果预测值是连续值对应的问题是回归问题
    2 J) f0 M- t3 i% F" I如果预测值是离散值对应的问题的分类问题5 C7 K4 R- W- m1 i( A) z
    4.2类别型变量处理
    7 A; M$ G9 Q2 Z8 P. t  k+ x$ j比如天气: 晴天丶阴天丶雨天
    & l/ e" P3 V( @6 j: ^% X( Flable encoder: 标签编码' {# j* l8 [7 Z) V
    9 o* A8 N: N) Y" o
    晴天丶阴天丶雨天$ X% ~2 B( I1 _- V; i" Q
    0--------1--------2- t' \& c' l1 }- W+ A& ^7 F
    / D8 g- a8 g! J
    ont-hot encoder: 独热编码(二进制方式)
    4 `% P" ]4 @5 b/ t# [7 V8 v" A! J! c0 v' D3 B
    晴天 丶 阴天丶 雨天6 {8 H0 I1 }- r  s% C9 |. Q. E; W
    1---------0----------0
    6 o5 e% h$ P+ H3 B0---------1----------0
    2 X7 L* E" [, y3 c; o0---------0----------1
    ! q& Y/ ^* Z" g6 U* H2 M# t! l! _
    总结:通常使用label encoder(标签编码)
    ; j7 t7 i1 {3 M( O$ E9 x————————————————
    5 F$ m- c/ X$ S; A: B版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。, U4 @: n3 [8 B, Z- _
    原文链接:https://blog.csdn.net/First_____/article/details/126717523
    . [1 Y' M6 l' p9 Z' j
    2 F8 B4 i5 \3 D" e, C$ K/ X4 \7 e3 c
    6 q' D" n/ ?8 }; n' X
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-10 14:53 , Processed in 0.399047 second(s), 51 queries .

    回顶部