QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2176|回复: 0
打印 上一主题 下一主题

1.机器学习概念及相关术语解释

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-8 10:23 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    ( _# @' ~0 _+ s
    1.机器学习概念及相关术语解释
    * r- k& L( Q4 k
    4 J" v8 i. P- x( w  _( {一丶 机器学习概念( p/ t7 O, U! q3 @. j1 w* e6 z
    概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能
    ' z8 F0 M! f& C5 ?2 h! l9 O
    . [  M+ r( Y, {# ^9 @, }6 L- ]总结: 机器学习模型=数据+算法
    * k! c- r- J7 Y+ N* {# i/ Q7 o# v6 T
    " ]/ @: `+ {. X, M1 Q如果有新的数据,我们只需要带入到Model中就可以输出预测值, `7 g0 K. `3 F" J9 ?+ x6 C

    9 V5 Q, R. W" {  v8 G6 U. F# L什么不是机器学习?4 \) D: ?  m4 P- Y8 A' U5 E* ?2 L
    ( M8 [9 z9 o3 Q- e* L! n
    比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
    . v3 I0 Q- Y* ^! v4 O机器学习其实就是需要有一个预测的过程* T& t/ T; @; Q" I& z: H9 K

    : \0 ?0 w9 [. X' _- P/ S. Z  ]机器学习概念补充:
    + K6 \% ~  O! n8 g8 M/ O2 b. d) ~4 i7 W3 N
    & J& N- L1 Z3 A2 N) Y1.说明: X: 特征或属性 Y:类别标签类或预测的值
    * S# T% h# O: r% K5 }) j7 ^' h4 O; ~5 Y$ l% O8 D+ H( a% e
    训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.. b+ z0 n3 K9 ~
    模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)
    . m- A9 a% n3 R/ Y5 Q9 u二丶两种学习方式) u% E3 z5 L/ i- D6 A0 z
    基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可; E6 d0 h8 b  z
    基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据" y# |9 U7 |: L3 G5 f
    三丶术语, p# r# L' i. A: O/ Q) y
    3.1机器学习分类的几种概念) V7 |2 m" M. g* ~8 ]  d* ?, ?
    0 e4 l' @5 U+ i+ M. B! R( ?
    监督学习: 训练集数据有类别标记
    1 _* Z" T* [! e无监督学习:训练集数据没有类别标记# j6 p! ^8 v, {
    半监督学习: 有类别标记的训练集+无标记的训练集' L6 Q  m+ X% f2 r# v. U% m$ o/ J
    强化学习: 常见的应用场景包括动态系统以及机器人控制等
    6 v( q7 g1 b# l$ _监督学习:9 S  ^. X  r: l. n- B

    3 _2 E# I2 t' `7 W+ w- m2 Y4 v分类:预测值是否为连续值,不是连续值的预测的话,是分类# d  c0 a% {, F/ n
    回归:预测值是连续值的话,是回归
    ( G. n9 }# R1 o# j( e$ @非监督学习:
    ! ?( O5 {/ z) ]1 G3 @9 k
    $ }5 A  o; P! K0 c, @9 d聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类2 Q; y4 _! j( g, G/ R& Z7 h
    降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的- ]" W5 y" s9 k4 Q
    – 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2* D7 Z+ t& Q6 W$ \
    半监督学习:( _* F7 z$ f4 T  \) l; i

    # r, I3 @6 a9 i1.基于聚类的假设& T0 \" j# Z: ~) b1 n+ }& ^* B
    –有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,& _4 v" J. c2 {$ A( O4 _7 E$ G
    此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签, q9 C8 |8 z4 `4 d/ B) s4 ]
    2.利用所有样本再进行模型训练
    6 q3 m( {+ Q1 M% P( L强化学习:  L5 T4 b4 S+ R' N$ _

    ) G* P8 s) E; e1 c7 D) P- y解决连续决策的问题丶围棋丶无人驾驶汽车等问题
    0 g$ A/ Q% i. D( k5 \* P& ~3.2机器学习三要素* g; M0 E( b8 R9 a' ~: C
    - y  K: b7 |9 P
    模型: 决策函数丶条件概率分布0 S+ n2 R1 s( p0 ^9 p* Q( z
    算法: 解析解和最优解(梯度下降法和牛顿法)! v+ T$ P/ o5 X) G- E& k
    策略: (损失函数)评判一个模型的好坏
    " b. F; K  A$ f" g2 B1 d3.3其他
    : p' a0 \7 ?/ H  G% M) a: l" [+ n, P: D* _5 j8 f
    降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
    ) f1 {) y( I) m/ g- a9 J8 d9 [抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决" `& _' ]# W1 @  P7 Y/ K
    交叉验证: 交叉验证就是将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证* _9 G+ _# W& ?/ Z
    过拟合: 模型对于训练集效果很好,对于测试集效果较差 原因:模型过于复杂
    - w, s  D1 o0 L* u  Q2 b欠拟合:模型对于训练集和测试集效果都很差 原因: 模型太过简单
    , `& S6 o5 Y) y, m模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合0 U' I( I$ K" p5 _# o7 f
    特征向量: 将属性或特征,通常使用向量来进行表示
    * A8 W! h4 T9 L' y训练集: 数据集划分的一部分,来用于模型或者算法的训练' r/ H: j; a) |, v5 a& C
    测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏
    8 G: r' p, w, [& m7 S. G$ N* g3 k6 L4 Y9 D; o0 [

    ' T- L; Z: P4 Y" v& K四丶分类和回归问题1 g; _" o4 t4 Z4 l9 n  C: q+ F( \4 H" P
    4.1说明
    & g3 X! `/ s8 {" U; U2 u4 [( c, ]1 K; Z
    如果预测值是连续值对应的问题是回归问题3 P# ^; z& H' `' O
    如果预测值是离散值对应的问题的分类问题5 ]! v' A8 M8 g$ G/ x( E
    4.2类别型变量处理
    6 d5 {& U- W/ w" ?; ?0 ]比如天气: 晴天丶阴天丶雨天
    . ^' j" _  l+ J! @* f# Nlable encoder: 标签编码. V- z8 w. `" e- n  n9 s8 b7 u
    # V1 [7 ?. M0 R  E" z# N5 o
    晴天丶阴天丶雨天
    ( y. P: Y' p9 f$ M4 D( x0--------1--------20 d& C* d  u# C; w" z# U+ t5 o7 A

    3 n4 Q/ h) e6 V6 U  j* }ont-hot encoder: 独热编码(二进制方式)& f8 r* w. p* [5 {" J

    + t5 d  y+ X, Z! S7 A, c% }: j; G晴天 丶 阴天丶 雨天, g' p( k& F( i" P  B
    1---------0----------0
    4 h+ ~/ c# N1 H8 D- k0---------1----------0; W2 W6 N* b$ r1 w& Q( P, Z/ ?2 p
    0---------0----------1
    7 y% I( ~( T$ R/ u8 h* O/ f9 Q  p+ s% p1 q) R/ w: |3 o# p
    总结:通常使用label encoder(标签编码)
    ! @! Y0 d0 \* ?8 O4 h/ v————————————————
    6 l% K$ C$ t7 \0 b9 i5 J( }" K版权声明:本文为CSDN博主「First_____」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。6 s' g' D' o) b2 l& ~' ^  s7 w
    原文链接:https://blog.csdn.net/First_____/article/details/126717523
    9 W" |5 d! z6 p3 r
    ) L  o( |5 K! W, U" N- W* P1 A6 |1 N2 K2 c9 x  h7 l: ]

    * o) f* H; D1 [9 u
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-12 18:20 , Processed in 0.393644 second(s), 50 queries .

    回顶部