QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2199|回复: 0
打印 上一主题 下一主题

1.机器学习概念及相关术语解释

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-8 10:23 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    - K( O: l9 T, z% T+ X- P# K. i
    1.机器学习概念及相关术语解释3 N2 {7 w4 x) a* b0 b4 H% H
    - c+ \# S* P! T$ T" K/ m/ y, C' U
    一丶 机器学习概念& \2 O- I/ w( R& R* J
    概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能  ^2 I* w8 S" u) c
    0 ?& R; f2 r4 {* g# ~# }+ f9 @
    总结: 机器学习模型=数据+算法
    ! ], ?2 B3 D# u4 F% v1 K  h  s6 Z  z% K! \* p9 u  i
    如果有新的数据,我们只需要带入到Model中就可以输出预测值
    ; C6 D6 p( Q. R' Z" r% f
    4 }7 v( m' J8 `# r$ t什么不是机器学习?* V  E$ ]0 }( C- Z( r
    ) L5 d* j  C; \
    比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
    ' _  |  b4 k9 [0 \) j机器学习其实就是需要有一个预测的过程
    . C4 O# e' X4 B7 c2 O& V
    ) J# N, r; F0 P/ j) d机器学习概念补充:$ `, P; s: [* k6 W2 Y
    7 @1 u+ z5 [5 Z5 a" m0 y
    1.说明: X: 特征或属性 Y:类别标签类或预测的值
    6 w8 ~2 y2 n  u4 b, g: q; W- ^$ O; |2 F/ `) E3 P  M
    训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
    6 k  R' n; H; R, J& c& K模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)
    ( T) R' o0 ~  ]8 }* [. l5 ~2 `二丶两种学习方式
    & V: `* A1 q0 J' ^/ g. J, a基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
    ' o5 j6 I) Z- b8 ~. G! W$ `基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据$ q" `$ }* i+ c# m4 g
    三丶术语
    9 t9 U! E: [9 V, ~9 E, Q, o5 _. b+ [' r3.1机器学习分类的几种概念
    : Y% `* \. @& I# c9 s: N
    , ?. c6 ]* a' S1 \" [监督学习: 训练集数据有类别标记: A; v; s9 l6 c; i, ]; b
    无监督学习:训练集数据没有类别标记
    0 y8 v% L0 J1 V( @# o半监督学习: 有类别标记的训练集+无标记的训练集4 F* r* x) v8 N8 w  M
    强化学习: 常见的应用场景包括动态系统以及机器人控制等# R4 p$ W5 m9 p% y6 Y
    监督学习:
    ) {" Y' B3 \1 g$ v0 i# ~8 r% B, e# f8 W5 g# f# X! k- O, n* ?
    分类:预测值是否为连续值,不是连续值的预测的话,是分类  G4 R3 |! ^) Q3 L- r# `: _/ b2 z6 l
    回归:预测值是连续值的话,是回归
    4 t/ H) Y; b! u+ H' w; l5 `非监督学习:
    " ?: H0 ^! d( n7 o9 D3 M" G& L' U7 Q9 }1 D5 e
    聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类
    9 X/ y/ ~7 v! M/ F降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
    " x2 t- n- n7 @3 U" A6 P. N– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
    : i" A, z% F/ G" p% @半监督学习:
    & ?4 z& @; u+ h+ n3 X2 N( y
    5 s; U$ e! Z) O; I9 ]6 O5 _3 @1.基于聚类的假设* I0 m# o& b. ^* G& @
    –有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,& ?7 G( S: x" x, y
    此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
    ; h. \5 [' V7 U- X: B4 T+ ?2.利用所有样本再进行模型训练: u3 R( D5 c" q5 U; g' ~# A3 Y
    强化学习:" ~: t( g* j1 u

    8 {( v6 p; t& o* Q* z解决连续决策的问题丶围棋丶无人驾驶汽车等问题
    5 c4 S. X. |7 U; {1 A3.2机器学习三要素4 u) _) u% h+ H2 V4 h/ d; n1 j
      W2 v; y, ^4 l" P+ w" m% ?: K
    模型: 决策函数丶条件概率分布2 D8 ]. E& q4 H2 v1 G* Q! S
    算法: 解析解和最优解(梯度下降法和牛顿法)+ w; y1 B9 s. d( ^0 d) q5 l- O
    策略: (损失函数)评判一个模型的好坏
    ' A8 @/ ?& e9 `# M9 k4 ?0 [3.3其他
    + R$ z: [& S* J& U3 _9 R9 J
    4 d7 V4 ]  d" F* Q0 ]% f3 ]# [5 A降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
    1 e1 o2 r0 J9 z4 Q抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决0 b( R3 s! e: o9 a( G1 o
    交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证
    7 }7 \. ~. d) ?# y. V& {  p& ^$ X过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂  W5 }# `0 h2 o
    欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单" r2 s$ k5 s- n
    模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
    ) |% |( ~% Q" x7 U, E. Q$ m特征向量: 将属性或特征,通常使用向量来进行表示. ^' a$ c* A6 H. F0 [
    训练集: 数据集划分的一部分,来用于模型或者算法的训练
    ) z& g% l/ d  _/ R( `6 Y1 G测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏- s9 d2 M; ^& x- n" ~1 p9 j
    # q& b, o+ g- n0 F: g6 s6 ^& `: c. p

    / \# h* T/ r2 o0 v9 q四丶分类和回归问题
    + @) Q0 F1 z1 z6 e) u4.1说明$ N  ]7 u# v) X& K0 f! U+ q
    0 W& ~/ f1 K1 c( _/ p
    如果预测值是连续值对应的问题是回归问题
    , [. d- w. e8 r" O6 F如果预测值是离散值对应的问题的分类问题. w( _( k/ P/ O3 U, y
    4.2类别型变量处理. `1 q/ c1 P8 k
    比如天气: 晴天丶阴天丶雨天$ t/ N0 W+ m7 ^5 V( m2 r; }
    lable encoder: 标签编码7 a" G; M9 s+ [% e. u8 c, D
    # ^8 j7 N0 m2 h6 |; U4 {2 a
    晴天丶阴天丶雨天2 I# M2 m+ v4 f
    0--------1--------2) T: k, ]( p% v; R
      ]! o' l; i* h" b
    ont-hot encoder: 独热编码(二进制方式)
    2 O2 ^, F. x$ ~
    $ B/ U# B) U$ p/ u* S晴天 丶 阴天丶 雨天1 x0 W9 Q  E! O1 s0 p% V  J& ?9 x
    1---------0----------0. j/ m+ [' A: G! E
    0---------1----------0+ I6 q1 C+ y8 y3 u' u# M% a
    0---------0----------1
    0 s; C- \; B& ^; t  ~3 J9 Q; N4 p" X4 o( L5 J  y$ Y5 k+ Q/ F
    总结:通常使用label encoder(标签编码)( _/ S& H/ |& I7 G. ]& Q4 q
    ————————————————
    / O! H$ H2 ?4 ~( h4 @) I; p版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。' Y; @0 u) X/ \9 N& {
    原文链接:https://blog.csdn.net/First_____/article/details/126717523
    9 P' w: y, u" O$ v9 A6 m* W5 q1 D' j% I: a  h

    5 [* r+ S& g) `! N; R, M: p- h' G  i! K1 {& L! H
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-15 09:24 , Processed in 4.051876 second(s), 51 queries .

    回顶部