QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2175|回复: 0
打印 上一主题 下一主题

1.机器学习概念及相关术语解释

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-8 10:23 |只看该作者 |正序浏览
    |招呼Ta 关注Ta
    ( C3 p0 Z6 U5 R& O9 j
    1.机器学习概念及相关术语解释
    $ V+ y% p  l0 L3 v% t! S+ k/ L7 E6 ]5 R
    一丶 机器学习概念) X) R6 \2 C! m& H! V) u& _/ ^% \
    概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能. K! I/ @, l% \! K: Z4 r1 ~
      N* d" r: H$ ^  A0 Z
    总结: 机器学习模型=数据+算法
    + Q$ W  N/ ^6 r+ N1 A  V" a% f/ a  a+ V3 Q  ]
    如果有新的数据,我们只需要带入到Model中就可以输出预测值* X2 l) l& n* k! m- K% O

    # s% f$ {% {0 ?& U7 }什么不是机器学习?: a# Q/ l2 m% p- ^* I
    - t4 b1 n+ O# z3 X& M
    比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)4 e8 @, C$ R3 z: A% j/ E4 A* n
    机器学习其实就是需要有一个预测的过程
    & i0 m, [: d  E
    3 c) p8 K, p" @) e6 B: K机器学习概念补充:
    1 B$ W2 n# V5 Y* a$ i5 J2 K" n. D. ]% P" q
    1.说明: X: 特征或属性 Y:类别标签类或预测的值
    4 k3 s1 b9 ~  Y% B/ ^: u
    5 Q' z% H! x% @% n训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度." C: q& b& @' g7 W, i' s
    模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)9 D3 a0 q9 r$ `/ N( n$ q$ r5 C
    二丶两种学习方式; d$ d# l+ |6 E3 m
    基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
    + e+ t# j1 U: {) `% Y$ K0 n基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据! h0 S3 s' o0 ]# f; N# y
    三丶术语/ y3 K3 O& v1 D& {5 S0 E9 @) v0 D
    3.1机器学习分类的几种概念
    ' U2 J% I& l+ B% Q+ D3 D& }# b3 M% T- h. o/ j. K, U
    监督学习: 训练集数据有类别标记
    # v$ r0 g% ]4 C7 H# a! q5 Z无监督学习:训练集数据没有类别标记( c* q( f2 f/ j$ ~: _# _
    半监督学习: 有类别标记的训练集+无标记的训练集
    5 v$ D3 O' u' o) ~( n1 R7 Q强化学习: 常见的应用场景包括动态系统以及机器人控制等
    ) X. p0 ^6 x3 W5 L% i监督学习:
    & ?2 ~9 h$ F) I7 n, `# J, e! q3 ?6 Q6 ^) O4 d3 x
    分类:预测值是否为连续值,不是连续值的预测的话,是分类7 A, B+ v6 n: M0 x+ |+ q
    回归:预测值是连续值的话,是回归
    7 B' r' Y/ R$ Q3 G/ t非监督学习:
    : A" p# Y4 L$ R" X& A* s2 M( M! M9 U2 A* X
    聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类2 i7 F' F" z+ i
    降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
    0 J/ H4 _7 v& m. ~* k' N– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2% }( Z9 U0 F7 _6 N  ]
    半监督学习:4 ?* f; j: I5 M" }6 y
    5 L+ g* g& d) ]! _
    1.基于聚类的假设0 N+ A- N& I0 t3 T% a$ f
    –有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
    ( c) ^: g) f: i5 e. v此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签6 D5 ~7 U8 H- h9 m# K# h
    2.利用所有样本再进行模型训练
    5 W4 q9 w$ M. j7 _* w3 y1 Q强化学习:
    $ O- X+ I: }$ ]& |/ N# M# }4 r9 V! k
    解决连续决策的问题丶围棋丶无人驾驶汽车等问题
    7 W, }4 \; C1 V3.2机器学习三要素- x% S* z5 h- l, A5 |% }/ q% l6 _
    ! G  o+ M3 j& p( o$ P6 h9 q
    模型: 决策函数丶条件概率分布7 X: ~+ T" v& a$ F
    算法: 解析解和最优解(梯度下降法和牛顿法)6 d" v- L% h' J* i9 M2 K) d3 n
    策略: (损失函数)评判一个模型的好坏  A: ?) t7 O/ E/ d+ r
    3.3其他
    + ~1 C6 Y) u! e, ]& P
    5 Y/ I6 B. R+ q4 k3 B0 A降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
    9 F, q0 _- t) }2 W抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
    3 g( W9 u+ J: k交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证
    " h: v8 G3 W/ ]9 C4 W* [过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂
    ) s; o' `0 c+ G8 a( Q欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
    & m% h/ k  E8 H) S0 Z. b模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合( A: Z( ^% W% j5 D# O
    特征向量: 将属性或特征,通常使用向量来进行表示
    0 w) y% v( `  G/ f- z, I训练集: 数据集划分的一部分,来用于模型或者算法的训练
    : r. q8 F8 g" q& ~3 B* Y* D9 k测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏+ g( C3 i4 u4 h1 N. j1 E
    + }7 q# n0 [7 V1 s
    ) i( Y, r7 Z% V1 L: {
    四丶分类和回归问题
    + |) z8 F9 I; v3 Z& i2 v4.1说明
    + F0 R0 D! U- G
    # D; A5 C& C' c7 s9 X# @如果预测值是连续值对应的问题是回归问题
    7 m- N" [5 k& \$ S8 }6 z" ?, m5 t如果预测值是离散值对应的问题的分类问题
    5 {, u( `- {8 S, N  v# D# v+ F4.2类别型变量处理& t$ i) _$ \1 z; F
    比如天气: 晴天丶阴天丶雨天
    ( v% C8 P7 X) |  u3 ?0 ^9 y" ^# T) dlable encoder: 标签编码/ Z5 {0 s6 c. S5 D
    . S7 _: g' W, ?
    晴天丶阴天丶雨天
    0 O9 O( }3 ]* `2 l0--------1--------2
    6 E4 w. q3 I# @# y/ Z# _$ p( I% ^: S$ |, E6 K
    ont-hot encoder: 独热编码(二进制方式)7 i. R  b8 n; R8 E, X

    % t# `# m0 j# _/ t0 e( ]" |* [晴天 丶 阴天丶 雨天
    . R2 C- C7 b& s  m- w1---------0----------0
    % z" b8 w/ K& ?" q0---------1----------0
    5 }, n$ b) [0 V7 `0---------0----------1. R# {. O. ?8 b1 N3 t. g5 |
    ) l2 y! N6 u" f
    总结:通常使用label encoder(标签编码)  E' N, w6 I+ K+ h% }4 R
    ————————————————
    ; U+ t4 d% b4 d版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。4 @" W2 L( l) h1 O
    原文链接:https://blog.csdn.net/First_____/article/details/126717523
    . f" H! Q- P/ ~4 S! Y9 l! n, ?6 n; O8 C

    5 g; Z6 s' I6 I* N
    5 }+ d% g2 b3 W/ @1 V. U
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-12 04:32 , Processed in 0.437459 second(s), 52 queries .

    回顶部