QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2174|回复: 0
打印 上一主题 下一主题

1.机器学习概念及相关术语解释

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-8 10:23 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    6 |5 c9 _' b6 t* d
    1.机器学习概念及相关术语解释2 E9 a$ B4 v, o- r
    8 X: c% [. [- O. `8 r
    一丶 机器学习概念5 F5 T- Y0 q. F: i7 i
    概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能4 g' R9 U' A6 t7 R2 b# D
    5 B2 R2 P" D1 C
    总结: 机器学习模型=数据+算法+ k8 w$ V( A6 ?* m* ?

    % X9 {" E) C. A  ]如果有新的数据,我们只需要带入到Model中就可以输出预测值+ q$ a: Q4 o. d4 u/ H- s

    4 L4 _. A; i4 ~( x0 C* K什么不是机器学习?8 c6 \) x  U" y- s0 p  Y
    ; Q' s) _0 }; G% u1 g+ a
    比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
    ' d! r* o  L; x" j! y机器学习其实就是需要有一个预测的过程
    ' c3 X4 l( q! L2 F/ b9 f/ d3 {/ R7 k( Z( L8 t- `6 K- g# R7 v
    机器学习概念补充:9 R, Y( S7 y# G. D; v
      w' {- C0 d# L- b1 m% ?
    1.说明: X: 特征或属性 Y:类别标签类或预测的值1 A5 Z* X7 j7 d4 n+ W
    0 `$ v- ]2 d( H, D' `( b, l8 q
    训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.6 k# l9 T6 Y: y5 g
    模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)- Z* N# a& X+ [" G, i  S& T
    二丶两种学习方式' r4 o* g; {4 {% }7 y
    基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
    1 O' a' a' }0 X9 }/ Q1 c9 o4 {9 A基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据
    ' F) T) v1 N$ X" m+ {) ]三丶术语
      f( h7 o. Z4 n3.1机器学习分类的几种概念* l3 O% J5 {7 t0 F! G# N* e

    : H3 ~8 ~; u. w8 g9 x$ |监督学习: 训练集数据有类别标记
    $ K+ L- t. w' n5 L, m( |无监督学习:训练集数据没有类别标记( ]+ Y) f. @  A3 m! u, l% g
    半监督学习: 有类别标记的训练集+无标记的训练集& D& v3 w5 j- B5 |6 D
    强化学习: 常见的应用场景包括动态系统以及机器人控制等
    $ H& S" A0 [6 w0 _; m* N# M监督学习:! U& q  ?, R6 o1 b
    5 E+ l3 {9 g/ ?- N& E
    分类:预测值是否为连续值,不是连续值的预测的话,是分类
    4 ^# J+ \; W2 A9 f) B  o+ F回归:预测值是连续值的话,是回归
    + L4 q+ \1 z1 i5 |7 s非监督学习:3 M" i. [7 v- W+ c. x
    $ a2 U# b5 V, V
    聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类1 \# n# D/ l. a- c! C
    降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的& F( g! a7 r+ P; |0 O
    – 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
    7 Q: x  v8 O+ y半监督学习:' R  N! C1 {# \  g
    ; U* B: ^, z$ y) F: p! z2 N
    1.基于聚类的假设
    / E% ~3 D4 H3 C–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
    3 s  c# F; b0 q: P* y, ?' O9 ?此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
    $ ?  Z9 Y; I* v4 t+ J6 ~2.利用所有样本再进行模型训练
    4 s9 g# ^* |( s' _- I* M强化学习:
    7 z! |, ]+ Z, L
    . N2 i2 ~$ O% U' t. {. Q4 i  k解决连续决策的问题丶围棋丶无人驾驶汽车等问题" a! R- ^) V6 @
    3.2机器学习三要素" {$ g" ^, H1 e+ k* Q$ K

    $ \6 M! ?% M" k" G0 }; r模型: 决策函数丶条件概率分布
    " \& d8 k( o$ ^2 U- V3 E算法: 解析解和最优解(梯度下降法和牛顿法)
    , g; _! L& h$ k* T, j策略: (损失函数)评判一个模型的好坏& v1 k& b3 ?9 {- t: u7 B# k4 U
    3.3其他$ ]( C1 A! Y9 q$ {
    1 ?8 r1 x: h! e3 i3 z
    降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示! O2 F# z4 }, ?  V% f5 L9 A3 i7 M
    抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决# b' X9 ]3 ~) L6 Q+ W5 \
    交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证2 Q* n+ s/ p. X
    过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂9 A8 @! m- h! u
    欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单: y: y. E' K" e/ r+ E. k; e+ H
    模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
    - e1 {8 P( m4 E, E7 s特征向量: 将属性或特征,通常使用向量来进行表示( E; P1 r/ `5 b8 {* E, F8 |6 ^
    训练集: 数据集划分的一部分,来用于模型或者算法的训练
    / Y/ D! w( a% ?' ?* S1 p测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏2 @; z- n; d6 l, R) Y/ |4 A  i
    3 j+ R8 Y" P% ?2 o6 L
    & T# g, D: x& D. b
    四丶分类和回归问题
    # l6 |. p% h2 K9 p: }, `: Y& V4.1说明! |  ~6 p: s$ l& f$ I& b& p

    2 I8 s3 n& ]1 m7 w. W7 Y如果预测值是连续值对应的问题是回归问题
    / C+ ?0 m; S- s& s如果预测值是离散值对应的问题的分类问题
    ; `9 M1 J1 R, v' P/ z" b4.2类别型变量处理
    # K2 ?$ K' l) T# K比如天气: 晴天丶阴天丶雨天
    - Y) K4 O; M5 I% n7 H1 f) ~lable encoder: 标签编码9 ^) M- e, `. D( h5 j; I3 X
    9 ~1 F4 a( s, |6 a4 a# A
    晴天丶阴天丶雨天
    ! c$ F8 o$ h: {0--------1--------2
    ' l- K' P, i1 b) x: x% @  Q# u  E5 x  ]2 Q3 N% N* W3 W  O; [
    ont-hot encoder: 独热编码(二进制方式)! F$ k6 s+ u/ W. j* L0 k9 \9 q" M
    # W% \- ~1 }: k+ S+ ]0 R& S& O7 L
    晴天 丶 阴天丶 雨天: N# R* N9 o" W2 A6 g: A
    1---------0----------0
    2 d: ]3 v( E7 d  ]0---------1----------0
      }3 S3 ?' D3 c5 Q4 b( s0---------0----------1' G: @7 R: }! o0 Y
    + u8 |" {$ {2 C1 V- D* q7 p; n
    总结:通常使用label encoder(标签编码)2 \: b8 C6 e- a8 e) s! P
    ————————————————
    6 [2 y: [) z+ i$ [# T版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    2 a0 L, c$ ^9 v5 S原文链接:https://blog.csdn.net/First_____/article/details/126717523
    ( j/ N0 z% f7 O9 G/ L& j+ }' M% p* \! k0 t) i* \* p+ p3 F" t
    + m& Q  t  h! {5 X  J$ D, m: T. z
    8 P$ ?3 x1 \* B' x, U, o
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-12 02:57 , Processed in 0.414534 second(s), 50 queries .

    回顶部