QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2181|回复: 0
打印 上一主题 下一主题

1.机器学习概念及相关术语解释

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-8 10:23 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    6 ^  h4 A2 d; c) v2 W' `) w! |
    1.机器学习概念及相关术语解释
    . w, j: K, _7 _% d* L; D4 k; p% M' o
    一丶 机器学习概念+ ]; R  M9 X% f/ g
    概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能
    ( B% X  V4 }, \0 [' U1 ]7 p/ D/ r3 r( q! h( F" H
    总结: 机器学习模型=数据+算法
    0 Y! `% g! K9 ]5 L' C( C; i
    $ [" b9 z2 f; O- w, U& v) o: Q8 e如果有新的数据,我们只需要带入到Model中就可以输出预测值( z) l3 M9 ]6 i. K' w2 G- r
    ! h8 J2 E$ K) r% }, [# c$ v
    什么不是机器学习?
    % E; T5 d+ [' |7 h7 y
      a5 p" b3 I4 U$ r# W$ p% U% v: [比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
    * Y. s# ]: z: Q机器学习其实就是需要有一个预测的过程
    0 U# L2 S  k- F2 w$ d2 `: _
    1 M/ H6 H& u) S. q机器学习概念补充:
    4 j. ]& ^4 y8 v, W/ U5 K6 A# ?1 M0 G# [  U7 O$ V
    1.说明: X: 特征或属性 Y:类别标签类或预测的值. c; p4 B7 h3 o% z, w4 t- _
    3 ^- C% V$ `- F* p
    训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度." D7 n* n- V1 e2 m& E
    模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)
    9 |# M0 c2 `6 U* E二丶两种学习方式5 |" ~$ c+ Y! J# T# \/ j* N
    基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
    % J4 M1 X" q  c7 ~8 L基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据- F$ w% r- T* d7 j% I
    三丶术语# k/ Y8 G; d) i  `- `* [3 a
    3.1机器学习分类的几种概念
    1 W8 w- B# b8 S# s8 w( J- v+ P; c6 e$ q4 ^1 @
    监督学习: 训练集数据有类别标记
    ( \" T3 I$ }1 `* T无监督学习:训练集数据没有类别标记3 p) k* s% q7 b8 j& D
    半监督学习: 有类别标记的训练集+无标记的训练集
    ; f# a# _- V9 T! d' |) l3 e& [+ `强化学习: 常见的应用场景包括动态系统以及机器人控制等+ I3 C* x8 E1 J/ o
    监督学习:& y& O6 ~9 c1 a1 Y- i

    3 Z+ m2 x* ~4 A. ^$ ~' i分类:预测值是否为连续值,不是连续值的预测的话,是分类
    + [) \0 h, r8 y% k; g8 }1 ^2 E+ L回归:预测值是连续值的话,是回归4 H& S0 q/ o. e* G6 m
    非监督学习:
    " V4 Q: D6 ]5 c; {+ z9 H! k% ^5 G. J% N; j- h7 n. u. s
    聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类1 [; f9 H, o: j3 u# m' e% K* @" \
    降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的6 Q" n+ L5 b& D& A, n) ]
    – 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
    ' Y5 o+ h: q  E半监督学习:' p+ W9 M7 ?5 K8 s

    0 q2 F' t; @. A# y1.基于聚类的假设
      u: a0 r; r8 U  c0 F4 A: q: E  X( P–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
    5 w$ A# S5 T" P# Z; n1 V% F此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
    - x: D# q0 e1 ]2.利用所有样本再进行模型训练
    0 G  q: Y$ ?3 K$ }1 D% q强化学习:0 V! a6 w5 V2 ^
    ( v- o" E5 }# s) D* O. I# D
    解决连续决策的问题丶围棋丶无人驾驶汽车等问题- @0 Y4 b2 ]1 E, p5 w$ W& g" U5 s
    3.2机器学习三要素- D$ Z- p. K; y7 Q( t8 \
    2 Z6 ~/ x% E6 x3 t
    模型: 决策函数丶条件概率分布1 g6 l. j; {. X  S; I6 y5 Q) l
    算法: 解析解和最优解(梯度下降法和牛顿法)( D5 ?  Q: W0 Q/ l# q% b
    策略: (损失函数)评判一个模型的好坏
    3 C9 I8 `. Z& p" H# L' N1 `3 @3.3其他
    / W/ q  K8 G. X/ j2 D- v- n( ~; v* o, M; H+ G1 H
    降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
    $ f/ F% r0 X0 E, X; D( E抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
    % y" P4 W- c% C( T交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证! F' K' ]# U8 w, y
    过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂
    ; j: h, f) u+ F; ~欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单2 `. t, c5 q  `+ b4 B
    模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合9 Y, `# N' \+ o0 s8 ?
    特征向量: 将属性或特征,通常使用向量来进行表示" B- [( P9 H: V) V# v7 K; e- u
    训练集: 数据集划分的一部分,来用于模型或者算法的训练" u, `3 W5 X! A/ @' j
    测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
    ( z" ?! m. r1 u- D/ l0 v2 ?& |  s
    % Z& M5 f" s5 p% R) ]5 H' m
    四丶分类和回归问题
    & I. ?" b" B/ l# {4.1说明
    4 l3 o1 A8 F& i: H) [% I6 O% |- X; \( {4 D) _6 o3 k6 W( U; ]
    如果预测值是连续值对应的问题是回归问题+ }, K+ D' ^1 Q, U& v( K- D
    如果预测值是离散值对应的问题的分类问题
    $ T5 V( `& G( E* L5 y( Q4.2类别型变量处理
    ' ]: L( x5 f, M( C8 Y比如天气: 晴天丶阴天丶雨天8 x9 M  q( D4 o
    lable encoder: 标签编码) c& e7 x5 \2 M$ q1 D3 X" d3 H% T7 j

    6 S9 f7 o& V+ M8 m4 e, ^( B$ ?晴天丶阴天丶雨天/ B( C' J& m! O$ C8 ?
    0--------1--------2. M8 a0 \2 |( b5 d7 M2 N8 @

    ( G" z% s  I( [3 m& K& ]ont-hot encoder: 独热编码(二进制方式)
    3 d' Y. H  E) z( G* @5 r* e. X! n* V" u' H: g# e
    晴天 丶 阴天丶 雨天
    5 J8 s; V  Z& F; e1 E1---------0----------0
    4 G' e: P6 J0 x1 O0---------1----------0
    7 g9 J& E1 |3 ^# Q0 i0---------0----------1) R2 S+ ^( F* Z5 g0 K
    . q/ h: O5 m8 k2 z' l& ?7 S
    总结:通常使用label encoder(标签编码)
    9 x' L$ v9 z( `8 w' C5 I————————————————# ^, u- P& f3 i/ Y9 B
    版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。2 y: E. n1 M; I, G
    原文链接:https://blog.csdn.net/First_____/article/details/126717523) U; J# w; N0 h9 k& U

    2 z1 t- D) I# A+ P: E, e0 C: o/ y& a% d* H: B" l

    & _9 {7 H! e: r1 o8 E6 J& C+ b
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-21 08:46 , Processed in 1.073737 second(s), 51 queries .

    回顶部