QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2192|回复: 0
打印 上一主题 下一主题

1.机器学习概念及相关术语解释

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-8 10:23 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

      J6 t9 c: X: X4 b
    1.机器学习概念及相关术语解释0 V1 |' Z7 c6 j. t0 \

    5 t5 V. D9 Y1 c, M一丶 机器学习概念
    3 a$ D. i1 M  y( @. m概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能0 s3 |+ T3 m9 P* C
    / X) e+ h* V5 Z0 r! j5 o
    总结: 机器学习模型=数据+算法! E# i1 K3 J7 H8 x# S
    . s, @) r! C1 m5 S- _
    如果有新的数据,我们只需要带入到Model中就可以输出预测值
    - |6 A& s4 f. }$ |1 o' S
    ( Z3 Q' p  s1 [4 n+ F, `# p什么不是机器学习?+ \) s" H( e- C3 j. w2 ]
    ' ^! C3 [- Q8 v! T
    比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
    ( m( x$ u, |8 c% Z( G; V, Z机器学习其实就是需要有一个预测的过程
    # |7 x7 I& W: {* R9 k7 C5 i* W
    / y$ {* B) N0 e6 p机器学习概念补充:
    3 w1 a& t1 f$ G9 [
    - R8 |# S' m7 A- T4 W2 f" w1.说明: X: 特征或属性 Y:类别标签类或预测的值$ G  {: C6 ~, p
    + s& J  D5 Q0 J
    训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
    # E  Q" K7 v  j; Z模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)0 {; |! O/ X& ]! |1 s* p: {1 Q5 f
    二丶两种学习方式+ G' @% @; l, A$ s* Q* l
    基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可, X8 V3 a. x# p
    基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据4 z$ F- ^3 U1 p4 {& Q" c  S
    三丶术语
    ' {% \$ E$ c. r* r+ y8 h) L0 t3.1机器学习分类的几种概念/ \( z* g+ t) ]/ a  H
    ! n  T: C6 |" u
    监督学习: 训练集数据有类别标记
    4 o  E  ^1 t8 l3 b; {无监督学习:训练集数据没有类别标记/ W9 k' M8 n+ M- t  p  L
    半监督学习: 有类别标记的训练集+无标记的训练集6 |: |- Q: `$ `4 x2 Z0 E1 h: U
    强化学习: 常见的应用场景包括动态系统以及机器人控制等
    6 j; l) C3 n& I  Y1 u, `监督学习:8 c8 u! z3 }' p# D; ^
    3 M1 M- I- h: e
    分类:预测值是否为连续值,不是连续值的预测的话,是分类: v* B+ `. j/ u" v  S
    回归:预测值是连续值的话,是回归# o6 w2 h; x9 z  y
    非监督学习:8 E6 E* q& v1 P; k% e8 j

    ' O3 A' F: w6 Y. {1 B聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类# [2 b! P( }3 h" P/ e5 S- K; Q
    降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的, R/ `' K2 |- J2 j
    – 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2  X. i# N7 d& S6 t4 K- `+ `
    半监督学习:
    ; D8 U  T! J3 B3 L( z& N" M3 V& {" V* g5 F
    1.基于聚类的假设
    4 v/ Y' m1 \% ~% C–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
    ! G1 v( |. d$ l: U* i9 [此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
    1 v1 @0 W) y1 N. J+ }2.利用所有样本再进行模型训练
    3 o3 Z5 [+ z" W+ ?强化学习:3 c- c' ]. ?. j5 l

    5 g0 U  E! [) p: e0 @解决连续决策的问题丶围棋丶无人驾驶汽车等问题
    - o. e$ _: @0 D3.2机器学习三要素
    ; q# @3 A: F0 {4 B
    ! A/ W5 Y# Y% s5 S2 p; }1 y模型: 决策函数丶条件概率分布
    ' o9 ?5 {+ f: v, j算法: 解析解和最优解(梯度下降法和牛顿法)$ @! [% a9 F- U. x
    策略: (损失函数)评判一个模型的好坏
    4 q) _0 r* W: x" K3.3其他
    % A; W/ u1 C" F- V
    : H; {! ~: C  m- Y4 _2 _降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示% M# G1 a& i5 G8 G* v
    抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决# `) |1 m6 P0 Q" S
    交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证$ D- R* R7 M' c1 ?8 s
    过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂7 |) X. t& G8 }# k9 _) T
    欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单0 s1 F3 x/ V- ~5 J  I$ I  X7 {
    模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合6 j9 G! M* E- D0 |( D' A) W
    特征向量: 将属性或特征,通常使用向量来进行表示. i; f! R) }' A( \. a, g' D
    训练集: 数据集划分的一部分,来用于模型或者算法的训练& ]$ }" G5 m7 w1 W
    测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏9 Q" E( M5 R* L! ?% o( U9 w
    % t4 z$ ?- E3 S2 C( @; J

    # B) ~( m- N+ e四丶分类和回归问题1 v% h0 e6 X. ]8 G: V% u
    4.1说明
    ; ~$ T: C- Z* [  U" V& Y& z5 b  a* T8 c* k, l5 j2 |
    如果预测值是连续值对应的问题是回归问题
    1 v7 c- Z1 P; X: q$ H( E如果预测值是离散值对应的问题的分类问题4 v, A0 b6 [  {! W
    4.2类别型变量处理
    * r1 k( h- D2 B! G. l8 [" r比如天气: 晴天丶阴天丶雨天2 [/ `/ K+ w! T' P
    lable encoder: 标签编码- P8 ], d8 |4 e1 x
    ( H- \% Z4 F6 k+ V2 m
    晴天丶阴天丶雨天
    2 q+ D6 G: b' F' e; p6 ^8 F* B# J0--------1--------2
    5 l( ?3 S" G1 |; N+ b! u# j
    " P- W3 t1 Q9 k" Bont-hot encoder: 独热编码(二进制方式)- V0 i* O% i) ]1 g; N
    . v: A, `) ?# c* @$ v
    晴天 丶 阴天丶 雨天/ K  K5 {, A- D! e8 [
    1---------0----------0
    5 i! n( T' [  k2 ?; D; T0---------1----------0
    5 A9 M4 P$ V! w! h0---------0----------1, c: P; F* m" b. S8 [
    % W; M1 y- B7 R' {
    总结:通常使用label encoder(标签编码)
    : J( Y- j6 J6 _6 M) ^/ b6 G7 X: t————————————————
    $ ]$ H4 w1 S  F版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。9 b7 C* c1 `  [0 \
    原文链接:https://blog.csdn.net/First_____/article/details/126717523, V" u" ]! W+ ^  U0 Y
    ; S# U$ p! [1 g) U) z% I0 M- {& w
    + N% X% ~/ w1 l$ m  P0 l

    . G" V& _0 i0 [# p4 L1 e4 U
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-5-26 05:15 , Processed in 0.271345 second(s), 51 queries .

    回顶部