QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2193|回复: 0
打印 上一主题 下一主题

1.机器学习概念及相关术语解释

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-8 10:23 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    : A3 M: E9 E" R% r
    1.机器学习概念及相关术语解释2 m. z: }& i) A, ?1 r

    % u" y, |. r# K% f8 T6 `% I一丶 机器学习概念
    % o) j. u4 ?9 A0 {( [4 d$ V概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能! m6 ^$ S3 z9 m  {3 f2 |& Z

    & A0 P7 C3 O! _3 @( `总结: 机器学习模型=数据+算法
    3 T8 K( p; y5 p) K( K9 q
    - [% ]2 i3 \1 l. N如果有新的数据,我们只需要带入到Model中就可以输出预测值" k7 V. O  a9 U/ U3 T7 M

    + f4 W- T3 g: ?1 T什么不是机器学习?# Z3 Y) W6 A) A4 U
    ! o4 [: e: e! f& \! I( Y- V+ h
    比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
    2 s- i% S" G, O# e3 Q- \机器学习其实就是需要有一个预测的过程* N0 z# }  E2 V6 f
    * t, x& T+ M6 [* |
    机器学习概念补充:& r  G5 B8 {. r/ J" P
    1 O$ U3 q  d8 o
    1.说明: X: 特征或属性 Y:类别标签类或预测的值
    ( ~2 C4 @/ W2 \, u: ~  r4 L" V% l7 F2 _) o: Q, Q+ G% \
    训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
    1 I+ {, \' g$ I3 n. H0 F* V模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)' T. ]& _4 Y) i- l
    二丶两种学习方式& l! \1 B- c! H3 j3 Q7 G2 i
    基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可5 _& ?+ D9 Q" ]- t8 O/ U. o4 L
    基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据% G6 e" a1 t2 H7 K6 X# k- J
    三丶术语- a! t3 D! O7 v; _+ Y
    3.1机器学习分类的几种概念0 W  I; d$ W" ]1 O7 F) M0 E% {

    $ q3 Y" O" ~, h$ Z3 \监督学习: 训练集数据有类别标记; [8 r$ x% V8 b+ }- v
    无监督学习:训练集数据没有类别标记. S2 ]& x* Q9 t6 m
    半监督学习: 有类别标记的训练集+无标记的训练集" s. R9 \/ m! F& y, W& s9 K" w
    强化学习: 常见的应用场景包括动态系统以及机器人控制等  Q3 H$ H2 k" C
    监督学习:' g9 C6 r( b$ q: L1 \+ q2 v4 p1 q' p, g

    0 j5 |) L0 r+ N! {分类:预测值是否为连续值,不是连续值的预测的话,是分类3 m4 m( u* B) G: n
    回归:预测值是连续值的话,是回归
    ' B8 h2 \7 u: i, T3 }3 H非监督学习:
    ) Z6 L) I2 ^) C& R/ x4 P8 K! s
    6 Q  _" q& z! p8 q  H; V5 U- m' o6 f5 Z* n聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类# n; X9 K  h7 g
    降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
    " G4 M/ E. E) b) n, w; n; D5 h– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
    ( S& X# {& a1 t% j半监督学习:
    : |0 g/ e9 _! n; B* L
    * \0 b! {; [/ J+ H- n: n1.基于聚类的假设2 ~6 I" q0 {: E
    –有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
    8 J, k% h9 m7 ~" [& z! P此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签2 Z' M9 D, C; P- S/ _- p
    2.利用所有样本再进行模型训练
    / M2 g. R- |1 W/ l% F0 Y. m强化学习:
    2 J2 r0 h. U; p3 X0 Q
    7 G  p. t: w: ]1 E' ^解决连续决策的问题丶围棋丶无人驾驶汽车等问题& t7 l" r; c; s% \; `8 }, T  |) p
    3.2机器学习三要素- N, G0 V) C- ]/ |5 s3 h* R& z

    ) B; ]' k* S- U# b( G, K- r模型: 决策函数丶条件概率分布
    4 P7 e! K4 h3 |8 K+ y( T算法: 解析解和最优解(梯度下降法和牛顿法)
    * [  [% M( u3 d! v) v4 S4 G3 P策略: (损失函数)评判一个模型的好坏
      a# r' [$ l! T9 I, T. Z+ \" q0 c3.3其他
    . c/ n+ a$ L  b2 C! Z- z: _# B( F& m8 W; V. q: |/ E
    降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示# f. _4 p! T) I. J" }, t
    抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决6 U1 j( v2 \% z% h+ }
    交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证
    + K0 X0 o0 h/ w过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂% h' y1 m2 ?* \# y
    欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单. X% J2 c% Y% i; k
    模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合0 A* n6 a& _- L) f
    特征向量: 将属性或特征,通常使用向量来进行表示* v8 S. O" O  O6 K6 @" v
    训练集: 数据集划分的一部分,来用于模型或者算法的训练
    3 I0 V! c( D- z" {3 u& p+ g: J测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
    6 L% G% t3 @. v' {, I4 S% Q# e/ Y. d* F! v: Q* m' u
    8 i* l" L1 U0 X& q* @* l4 m
    四丶分类和回归问题
      [" @( F3 W. A3 E( k4.1说明* _: _" k3 x% b- T% z
    % Z7 i5 M: _9 u" E
    如果预测值是连续值对应的问题是回归问题
    3 W# X4 R3 N& A如果预测值是离散值对应的问题的分类问题3 ^) a2 n- B- x$ R. V4 Q
    4.2类别型变量处理# @, j6 ?$ M% [
    比如天气: 晴天丶阴天丶雨天
    , X9 N) C' l4 k/ M4 |. d) B2 b0 R, ilable encoder: 标签编码
    * N$ P+ `, U* ?8 W3 Z% h& W& i% C
    " Z# j9 P+ m& c* Y% {晴天丶阴天丶雨天
    8 T6 i( Y, t: O6 b6 O3 W0--------1--------2
    * c# p" h4 X1 L7 S: r& _( Z0 v
    2 Q; `3 p) l2 m' J5 G+ x  b1 pont-hot encoder: 独热编码(二进制方式)
    . M# M; }* `$ G" @$ [( R; T% u9 M$ T# {" @* i7 R
    晴天 丶 阴天丶 雨天' u  z* r2 t0 J6 K8 ~
    1---------0----------0* @( }$ _8 h5 p. C7 W$ O' w
    0---------1----------0: a  {+ @. ^8 N! O( Z3 b
    0---------0----------1
    , e- j0 L& c; d
    0 q# b5 E/ K. |/ }5 f& h1 O总结:通常使用label encoder(标签编码)
    * b2 x- N2 i: \————————————————3 ~4 ]6 }7 u* \2 |
    版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    3 s) L( {/ O! G! Q1 o5 B原文链接:https://blog.csdn.net/First_____/article/details/126717523
    0 }! [7 _' m, m
    + Y+ g6 H; R! e' @& B2 D/ y" ]5 N( x$ _# A" f

    + ]# V& s& K3 y' K" S
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-5-26 06:33 , Processed in 0.408150 second(s), 51 queries .

    回顶部