QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2196|回复: 0
打印 上一主题 下一主题

1.机器学习概念及相关术语解释

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-8 10:23 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    - B/ H' p0 F5 }$ ^
    1.机器学习概念及相关术语解释
    . H4 M3 ?1 z% N0 n9 K1 W6 W1 X: w- M3 f1 V& s
    1 Z- ~& @! [) |' q$ K" J一丶 机器学习概念
    . s" u' C. i% a, F% A1 q7 W2 L概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能
    ' g2 E* ^, P0 G/ W% F
    $ ]4 V" N0 Z$ e& h( f2 F( X4 d总结: 机器学习模型=数据+算法7 Y! K, B) [" o. Q5 f# H# A( K

    & b1 l$ [( g5 h: r! ]& V如果有新的数据,我们只需要带入到Model中就可以输出预测值
    ' T" A7 k; Z; ]. x1 P4 }  c: h: h& R# a, n
    什么不是机器学习?
    ) {% t! b; X7 u6 j$ N- O5 Z$ n. e+ Y$ \# l; i
    比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)2 \" J" O6 O, h7 B" z% t' {! ?$ d
    机器学习其实就是需要有一个预测的过程, `' Q& m6 w; I- }! C/ U
    ( g& m2 i* g* e- I
    机器学习概念补充:) X2 y. a/ ~, T

    $ N5 Y3 ?8 j+ ^1 C# C1.说明: X: 特征或属性 Y:类别标签类或预测的值0 U6 E/ R4 s1 A! d: ?* H
    + u; ?; N* I: ?- D9 C% j, h8 g% @
    训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
    ! S4 T; T' j! s+ u: K# f模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)8 k! H# m6 `4 _) j" V
    二丶两种学习方式7 u3 Y4 [0 W& L
    基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
    7 u- b# [6 m% H' ], m基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据
    2 u; c$ W1 T: q, q, c1 f三丶术语' e7 q  h# w6 [- l5 G! `' T) A
    3.1机器学习分类的几种概念
    : U0 V  b; B" F
    / Q2 r4 d7 S3 }* J监督学习: 训练集数据有类别标记3 o& L2 _$ F$ I* N; Q  j4 F6 A
    无监督学习:训练集数据没有类别标记
    % k  q0 A, X% {% T! C1 m5 N半监督学习: 有类别标记的训练集+无标记的训练集. I9 A: x: }; e. J8 T% w
    强化学习: 常见的应用场景包括动态系统以及机器人控制等/ T. J7 j1 |- p; G3 u' c
    监督学习:+ I: F4 I6 d7 l5 }( q2 z# @) B
    4 e7 k/ P, a# g6 k, o- N8 z3 X
    分类:预测值是否为连续值,不是连续值的预测的话,是分类& R) z9 t. Q7 J
    回归:预测值是连续值的话,是回归* y: L# R1 _$ U* G5 ]
    非监督学习:
    6 h1 S: N4 T- n+ U9 C2 {* e. _+ D: X8 q1 d, u5 ?, Q) R9 x+ V
    聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类/ {. h% g8 k7 d+ g1 j
    降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
    ; c9 k' r8 j% o! B* t2 a# ~) `– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
    7 W% O/ U" J8 D2 t$ X半监督学习:: f" G0 w- l) v
    8 j( H) z$ r8 w( s0 g
    1.基于聚类的假设( i! f1 A3 A" i4 M! i+ t
    –有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
    ' _. r% m2 `5 k' j此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
    " n5 G# j0 p( c0 a2.利用所有样本再进行模型训练8 E! N6 I5 H/ |4 w4 g6 v  ]- i+ t% }
    强化学习:
    4 T0 J) r! x! C9 S! P% ?; M: N- Y  I0 Z: c' g1 l
    解决连续决策的问题丶围棋丶无人驾驶汽车等问题
      m8 l3 w. W3 x4 n3.2机器学习三要素; g, L, X% H" K1 [* u

    8 L& y! q; a4 R* r模型: 决策函数丶条件概率分布  s+ O9 d8 U3 G/ L& R
    算法: 解析解和最优解(梯度下降法和牛顿法)8 X. j; x# B: O
    策略: (损失函数)评判一个模型的好坏$ O: S% d; G2 G' A& B
    3.3其他/ x) b% O3 j8 n9 S
    , w' u/ l& l2 U& P+ K* }/ D
    降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
    * S8 I, f1 [% @6 N抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
    : C8 v/ v& i2 Z4 U交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证2 U/ O: N/ C4 W( b/ x5 w, V6 A
    过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂
    $ V$ c$ F8 T- F5 Q0 H. d欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单  p1 n# m9 M7 \' b
    模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合  D2 Z) n4 Y4 {
    特征向量: 将属性或特征,通常使用向量来进行表示
    # i4 N0 f; R) Q( k: }$ @训练集: 数据集划分的一部分,来用于模型或者算法的训练$ n% t( r! E: E* p  i" n
    测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
    3 e" _1 `7 U2 ]( h7 ^+ ?2 t5 G2 X$ e$ G

    / M9 Z2 a. N( N/ n四丶分类和回归问题" u+ ^  R. C3 Y$ Q0 D
    4.1说明+ i. k8 D4 K$ @& r
    - G7 W2 ]# h- e2 s1 S/ @/ q
    如果预测值是连续值对应的问题是回归问题+ U. y; {7 ~* ^, O% V8 Z# d8 ^
    如果预测值是离散值对应的问题的分类问题9 ]6 \- ~, M/ X. M
    4.2类别型变量处理( |1 p$ P+ j: P- H- `: G- T
    比如天气: 晴天丶阴天丶雨天; ?6 X* q% r2 X0 g/ E
    lable encoder: 标签编码5 U% E$ D# Z% B4 }# q3 i

    ( H% J! I3 a/ A; U晴天丶阴天丶雨天
    " s* u& t3 E6 p) Q# E; p0--------1--------2
    6 I7 T/ |: ~4 O' [5 U/ G
    % ^9 `$ l$ ?' X6 Ront-hot encoder: 独热编码(二进制方式)- h. C$ J% o. l4 U

    ! g8 G  @9 U) ^晴天 丶 阴天丶 雨天/ N7 U: N2 a4 P4 _* y: w
    1---------0----------0% W) n# A4 y& X3 @9 a$ C, K8 Q
    0---------1----------02 _4 Q6 P" Q( r* ?- w) z: f/ R0 Z
    0---------0----------1! }! U- ?; U5 j! D/ C. V
    + Y. Z, A1 S9 a2 v1 R% T+ @/ p
    总结:通常使用label encoder(标签编码)
    7 X  y4 V+ g# g  Z) u. w4 d————————————————& _0 z3 s8 o* A9 l- Z" Z
    版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。; R0 I* k, ^# j
    原文链接:https://blog.csdn.net/First_____/article/details/126717523
      m9 t% U& M* I8 d6 E. b
    0 D: P8 y6 Z& G+ \2 W: X
    2 y0 @% u  l4 g9 a. R. ]( u9 W) V2 }5 v3 M$ S4 o/ {0 R0 j
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-15 04:16 , Processed in 0.410612 second(s), 51 queries .

    回顶部