QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2197|回复: 0
打印 上一主题 下一主题

1.机器学习概念及相关术语解释

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-8 10:23 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    : ~- P, T/ w* h  m; V9 z
    1.机器学习概念及相关术语解释/ {% P1 x" K& j- m0 L/ g8 X4 ^

    5 a8 G7 q2 \$ q一丶 机器学习概念2 P8 z0 a* b$ ~% g3 Q
    概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能0 [9 f# R+ ]$ q8 W% I& C- U( t% t

    - i/ x' \4 f) o) [. l! ^9 |总结: 机器学习模型=数据+算法9 P/ S6 Q8 L. M5 V) A. E8 @

    % @' F6 L' i0 e( ^如果有新的数据,我们只需要带入到Model中就可以输出预测值
    - }- F, u! m% U# o9 T& x7 Z
    * [0 [+ @0 U3 d什么不是机器学习?! m9 k- \! Q% S% y( G

    " e% H1 w# _( D' n  I" h比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)2 I0 D( |1 s% h+ u0 y- ^
    机器学习其实就是需要有一个预测的过程
    ) d4 c# f1 L+ n/ ~. Y- A4 t0 t* u
    机器学习概念补充:* g+ [, P  Z  S0 G4 q* |

    $ d! t4 t$ q+ T; m/ V7 A. m! J1.说明: X: 特征或属性 Y:类别标签类或预测的值! Y) s5 h, J" |. z6 u* c- Q

    / S. e! V. D8 r0 r训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
    & G* q: S1 Y/ r. i' c' `6 R模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)! ]2 g/ g. D) j5 F2 B9 D7 C- u+ c
    二丶两种学习方式
    & M% n& O2 g7 `基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
    ; E( d* e# f3 ?+ i; _+ M1 `& C4 U2 X基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据
    - `, Z$ w$ c8 E' k' w9 I4 c1 C三丶术语
    - s3 ^! M2 X0 S- m2 p3.1机器学习分类的几种概念
    - S: u7 k/ ~) g0 Q( Q" ^% g
    - z( y# H1 y4 P监督学习: 训练集数据有类别标记4 d6 o5 A6 J2 z3 S' J  V' b6 ]% W
    无监督学习:训练集数据没有类别标记5 Z5 T/ f/ d9 p/ A! H. u
    半监督学习: 有类别标记的训练集+无标记的训练集& J+ D# F! i2 s& S. c# c
    强化学习: 常见的应用场景包括动态系统以及机器人控制等
    2 g- y4 g, v( c* E5 \监督学习:3 X$ b% l. k- v% `, E- P

    ) N8 @2 c$ z  z. s* b" m# }分类:预测值是否为连续值,不是连续值的预测的话,是分类+ V0 n, J0 M9 t1 k  O% ]/ p8 r
    回归:预测值是连续值的话,是回归
    0 ~; u; e1 n# d- u/ O9 t非监督学习:* O* ~! |  ~: R

    / A3 l( @8 e* D! F2 o聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类& g1 b. ^* ]% x3 ?( o5 s0 I
    降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
    ; X5 I2 a  C4 K+ W' m/ n, S– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
    ! |( C- S2 y% f; ^6 t6 t, [6 M& c半监督学习:. v2 M3 K( E, z/ e+ S' P7 Y% {
    # @& [  q8 l0 Q+ O; }- k
    1.基于聚类的假设
    - }9 Q; Q) b" z( t  M' e–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
    ) ]/ o1 L: I& U% s7 C/ G1 N此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
    ! P: _- s2 F" T. R% D2.利用所有样本再进行模型训练1 o% K" q; c0 h3 @" V
    强化学习:
    8 ?* E1 q4 |. o6 Z- h( P3 @- E  @& b4 b2 x: K
    解决连续决策的问题丶围棋丶无人驾驶汽车等问题' c) Q5 V* [/ p/ @
    3.2机器学习三要素
    5 [1 q' G1 ]0 b
    $ g% O+ P7 N1 J# S模型: 决策函数丶条件概率分布  s' l  o9 `9 }) Q' A' a6 d
    算法: 解析解和最优解(梯度下降法和牛顿法)4 u  d/ J5 S! |6 P
    策略: (损失函数)评判一个模型的好坏
    $ H- X! R' G4 y7 u, L3.3其他* @$ d! t8 L2 z# Y. \5 ~

    " L: D: |, K" W4 X$ j降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示  Z5 q* H; ]0 r3 Y; A% |  s7 V
    抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
    : J& {3 w7 K0 F3 f7 h: J- ?" |交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证- m. Y. K8 G! @/ P' q, G6 s
    过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂5 ?) a, A. `; \  a" _' p
    欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
    ; m2 U; }" v( c3 V) r+ T% Y模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
    ( a. m/ q" O9 w. p0 S1 r特征向量: 将属性或特征,通常使用向量来进行表示
    7 g4 O! B' {/ ^9 \$ Z训练集: 数据集划分的一部分,来用于模型或者算法的训练% s- R# K4 C- K4 H( {9 I
    测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
    : `% y9 \! [9 d% |4 D9 [$ _! J# b! [2 @6 k3 q6 c
    5 K" c7 s8 B' V
    四丶分类和回归问题$ Y* ^0 M$ w8 ]' e, t- q
    4.1说明
    $ ]2 T; m# ^+ U+ k8 l6 O) [7 u  W5 k! U5 j- T7 m) h
    如果预测值是连续值对应的问题是回归问题  Y1 ?6 o5 S! N$ t) H2 F
    如果预测值是离散值对应的问题的分类问题- W2 ?2 J' U4 f0 r" {
    4.2类别型变量处理
    7 \- ?( g* A1 E比如天气: 晴天丶阴天丶雨天
    ' [5 r( V( Y, I& Klable encoder: 标签编码
    ( b9 d# ^/ w) `9 u8 B8 E9 r" k+ z4 Z' c9 P- T/ L
    晴天丶阴天丶雨天8 c7 m/ f' W/ f2 R  M6 U
    0--------1--------2
    ) @/ a( r: c% ^7 U' J6 k6 U2 K& L/ [/ y6 ?6 R' V
    ont-hot encoder: 独热编码(二进制方式)( W3 Z9 M1 G8 B6 v- ]* Q! T
    8 l% r! d/ j0 s+ o) Z( q
    晴天 丶 阴天丶 雨天
    # o3 ?; T  H  @9 S% ?1---------0----------0
    5 c8 x+ P, O  A0---------1----------0
    6 p9 E2 n3 i4 m( T0---------0----------1
    ( r" Z9 t& u& l0 C! |' B& H4 z' s* T; d
    总结:通常使用label encoder(标签编码)) w% Z0 s( {3 ]
    ————————————————
    9 I! P% t& B5 _) [4 s5 q版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。/ b9 I3 f8 N" W4 c* W- {5 x
    原文链接:https://blog.csdn.net/First_____/article/details/1267175233 _. D5 O; B3 u2 {7 ^
    ) {/ U" T# i; ~
    - H) d& V# Q& x, _

    + \; ^0 k7 u9 u/ Q. {( M
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-15 05:24 , Processed in 0.380016 second(s), 51 queries .

    回顶部