QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2195|回复: 0
打印 上一主题 下一主题

1.机器学习概念及相关术语解释

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-8 10:23 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    6 H+ e' T/ I# s% S. h( |5 R
    1.机器学习概念及相关术语解释
    8 \' _! M( A! p; Z% T2 f" b) N1 e
    % E& k* c, D7 E9 @+ f% O' H一丶 机器学习概念
    9 b1 f6 y- B) \( v+ r( E: t概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能) O* f0 Z' u# K( A
    # u4 ~5 W% g4 \8 `
    总结: 机器学习模型=数据+算法
    % L9 a5 W3 v, a% I& P/ B/ o6 a- g
    3 ^8 L0 a; r! x, m! N9 e- d; J如果有新的数据,我们只需要带入到Model中就可以输出预测值$ w5 F4 P; o9 U2 |
    . D) W0 U3 k! w# K9 g: L/ X. M/ H3 M
    什么不是机器学习?: N) l  o% r2 ]# k* D) X' I& t
    . ?5 j' @$ G3 E
    比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
    ; x# W9 w; ]6 B机器学习其实就是需要有一个预测的过程
    ! ^7 C3 \9 c0 k0 I3 [3 v( m  {' @
    机器学习概念补充:
    1 e1 R  s; B1 i$ |9 |, k& D: Y4 ~
    1.说明: X: 特征或属性 Y:类别标签类或预测的值% b9 f7 r7 O8 \$ g, d

    + W3 E! n3 p5 G5 u! }3 k* u7 Y" ?: @( t  W训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.* [( t  p( ]8 C$ R) V
    模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)
    - _' `; `5 {% Y% u& d二丶两种学习方式
    : @- S1 a1 K# \! `9 R5 R! L基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
    ; C5 ?! z: ^* g( R: T' L基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据7 y; m; i4 ^% l5 j. n8 ]7 }
    三丶术语3 T4 Z% x: M1 U5 U! Y! G
    3.1机器学习分类的几种概念4 M% W1 F& A4 C' Q7 u

    4 z9 N$ \! @: W" F8 ~监督学习: 训练集数据有类别标记
    / q* l8 w! U  K3 a7 G9 Q2 w* T无监督学习:训练集数据没有类别标记
    7 B- P+ r" ~) ?$ ^- n半监督学习: 有类别标记的训练集+无标记的训练集# ^3 }5 H/ r& K2 ~
    强化学习: 常见的应用场景包括动态系统以及机器人控制等
    6 m' O% t: j/ ]+ ]& w. R! m监督学习:
    ! U, T2 d# E1 L; V4 t4 h/ ^. _/ v- Z; Y) U  z0 ^! z
    分类:预测值是否为连续值,不是连续值的预测的话,是分类
    $ t" T' B, j5 B8 V5 n5 a  [回归:预测值是连续值的话,是回归
    9 ]) [5 x) g6 Q- L6 N) v/ d非监督学习:7 t6 o2 o+ ]: d

      }9 Q+ ]2 b( W  H5 q6 K; i聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类
    1 I3 i$ j4 K, M. n降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
    % |" A9 b8 u( {9 d. F, `– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
    % F2 [% E0 }* o& c( p; d半监督学习:
    : t8 {7 x8 N1 k! [( J4 V# J9 v$ k2 k8 r4 _+ y* h. A! S
    1.基于聚类的假设& A+ V* g  a8 U6 Z6 g/ a
    –有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
    & V4 @3 `5 m7 w4 N' @此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
    $ K* t! f, q4 c/ L9 f. j: A2.利用所有样本再进行模型训练3 X9 N8 s' x5 ^3 M/ v6 r+ v' h
    强化学习:
    ( Z$ {) e4 E, I% m/ p7 S7 W
    # |1 b0 J* l* T6 `- j解决连续决策的问题丶围棋丶无人驾驶汽车等问题
    8 l8 X; t4 y) [+ L, ^) P: G2 p, d3.2机器学习三要素
    $ X9 o& M5 m  I; P0 g2 S& S3 B1 h
    6 a6 ]( \# c( a8 J模型: 决策函数丶条件概率分布
    $ y  U/ ^* Y1 [; B/ `' c0 Q算法: 解析解和最优解(梯度下降法和牛顿法)
    ! ]& P7 H$ C$ g. |! p+ M策略: (损失函数)评判一个模型的好坏
    , d. v3 ~9 ^6 x! v3.3其他
    8 B- H1 m) t" x" A3 G4 d
    ( U- @4 a# I* a* h; E1 l6 d降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
    # v( K3 C: o' I$ I4 v: ?抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决1 ^1 T- T" P( A0 I# F
    交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证  N# s( a8 I% S% N, n6 N
    过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂- g# Q9 `3 Y# n2 u
    欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
    - Y+ P) B( b4 {7 \  v  M# C; A2 T模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合' ~. P5 ~- f1 C  f0 V) U
    特征向量: 将属性或特征,通常使用向量来进行表示
    3 q0 p) V' \  F4 \训练集: 数据集划分的一部分,来用于模型或者算法的训练( ~/ N4 |* p; N& r) ~4 i' K
    测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏, o8 C0 G- v6 r+ x  c

      w- |) o* Q, w# a/ t7 P( W7 O- R4 I& Q0 f- a9 Y
    四丶分类和回归问题
    / g, D4 L  ^) Z& l, Y, m4.1说明; K3 T+ l& b; `

    1 q6 N. h+ G0 e如果预测值是连续值对应的问题是回归问题- v* D, r3 k; y# o9 E2 A
    如果预测值是离散值对应的问题的分类问题3 y9 u3 B8 c6 ^2 X& F1 H
    4.2类别型变量处理8 J, k4 p' q" [% G" n9 d! v
    比如天气: 晴天丶阴天丶雨天
    * e: s* f5 l3 H3 V  O$ h9 g4 Q+ N: Olable encoder: 标签编码
    " ~' _  P( C, z$ Z0 k9 ]+ S3 h: [  N  Q0 W9 c0 u3 k5 B
    晴天丶阴天丶雨天
    + E9 N1 o: g1 Q( u! E0--------1--------2* e" s; v! b* l

    8 ~9 k7 A. H$ _! F7 h( vont-hot encoder: 独热编码(二进制方式)
    " o6 Q# G& M; T: w# D; W% U& W- n, c7 s  ]9 @
    晴天 丶 阴天丶 雨天) s8 v! B4 p% K0 {, o
    1---------0----------0, C3 c: x& R7 h) P0 W, m
    0---------1----------08 l; I& W5 H3 ]! y6 R7 k
    0---------0----------13 k2 J7 d) Q3 R6 @
    : h2 q  \; A2 b
    总结:通常使用label encoder(标签编码)/ z% T# b" ?0 y( B8 m% E: B$ ~$ Y
    ————————————————
    5 A  c  @" D9 v3 i版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    0 F! ~/ }& ?) ?- W* a* l  `原文链接:https://blog.csdn.net/First_____/article/details/126717523- ~0 i- m3 j7 `/ x' C  N  b2 a1 |0 x
    ( B% v& y, t: g4 b8 V, R
    ! H" x$ W" _8 U" Z
    / U% c* |4 y; \: {! p; Q+ \
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-14 19:55 , Processed in 0.340409 second(s), 51 queries .

    回顶部