QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3377|回复: 0
打印 上一主题 下一主题

[其他资源] 【机器学习】无监督学习的概念,使用无监督学习发现数据的特点

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-14 16:37 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    【机器学习】无监督学习的概念,使用无监督学习发现数据的特点
    1 g4 H2 S" D) N& T
    # w9 V& n( G7 h: m9 b6 o6 K到目前位置,我们主要把注意力集中在监督学习的问题上,数据集中的每个数据点都有一个已知的标签或者目标值。然而如果面对没有已知的输出结果,或者没有人监督学习算法,我们要怎么做。
    . {4 {$ G- {# x3 d4 k
    , W! a. a" \  w$ C" ~7 }3 I这就是无监督学习 。) J* G6 O7 A4 }
    ; }& Z0 A4 A' X: h% j0 S
    在无监督、非监督学习中了,学习过程仅使用输入数据,没有更多的指导信息,要求从这些数据中提取知识。我们已经讨论了非监督学习众多形式的一种降维。另一个普及的领域就是聚类分析。他的目的是吧数据分为相似元素组成的不同区域中。
    ; N& V# q4 n. B4 w/ X# U+ G8 t
    # I$ l9 z: y9 c  K/ I0 V在本章中,我们想要理解不同的聚类算法如何从简单到,无标记的数据集中提取特征。这些结构特征,可以用于特征处理,图像处理,甚至是作为无监督学习任务的预处理步骤。) Q4 ]. ^5 k- g  q9 i8 G
    作为一个具体的例子,我们将对图像进行聚类,将色彩空间降到16位数。
    ' w, M8 ?! [: @/ \9 y; {* n4 V0 Q
    * B4 n: s& l" ]" `2 E解决的问题
    % Q6 [! k8 L5 S' u" ^1.K-means聚类和期望最大化是什么?如何在opencv中实现这些算法。
    , T, Y% p! O% Z' {5 u3 [0 D/ n0 c2.如何在层次树中使用聚类算法。他带来的好处有哪些。. p9 D( I1 n9 W
    3.如何使用无监督学习,进行预处理,图像处理,分类。
    - _) b) W/ v% x1 T0 T, |/ h  U9 h
    1 理解无监督学习0 ^! ^5 _. B6 f" \
    无监督学习可能有很多形式,但是他们的目标总是把原始数据转化为更加丰富,更加有意义的表示,这么做可以让人们更容易理解,也可以更方便的使用机器学习算法进行解析。5 A; w4 L4 d- a. g+ [, Q6 |
    无监督学习的应用包括一下应用:6 x( G0 u0 m' @( V) @  U7 c0 n, r
    1降维:他接受一个许多特征的高维度数据表示,尝试对这些数据进行压缩,以使其主要特征,可以使用少量的携带高信息量的数据来表示。
    , A0 }$ E; u+ n9 |2因子分析:用于找到导致被观察的到的数据的隐含因素或者未观察到的方面。
    ! c9 Q* Q3 r. _1 ^3 c8 A3聚类分析:
    $ b. g, h0 v* u" e% d5 }2 T# p尝试把数据分成相似元素组成的不同组。
    1 [  }! u0 e( t0 {9 f8 ^: J2 Q* z3 t0 ]9 S1 j, U7 E1 }8 D- Q6 R# Q
    无监督学习主要的挑战就是,如何确定一个算法是否出色,或者学习到什么有用内容,通常评估一个无监督学习算法结果的唯一方式是手动检查,并确定结果是否有意义。; R/ Y' s, O- S/ r4 t
    ) ?  [( l8 y. f
    话虽然如此,但是非监督学习,可以非常有,比如作为预处理或者特征提取的步骤。
    : z5 m* ?/ F0 n9 W$ I5 j- b
    8 E% i( W9 J  ^" \% S2理解K-means聚类& O" M5 B3 Y, n- l1 B3 q
    Opencv 提供最有用的聚类算法是k-means,因为它会从一个没有标记的多维度数据集中搜寻预设的K个聚类结果。
    ( K. a/ F3 k8 o8 P4 k
    5 `/ n# Q8 M8 H: P6 D它通过两个简单的假设来完成最佳聚类了。
    + H8 r% O3 e4 u: O0 `  z, r! R% G, _1 每个聚类中心都是属于该类别的所有数据点的算术平均值& |" Q# ]* W0 S- @" @* {1 i. t
    2 聚类中的每一个点相对其他聚类中心,更靠近本类别的中心。
    ( n/ z% k7 H1 r2 K. S9 @. N) F# \3 N  q/ C
    2.1 实现第一个kmeans例子
    ; F; P& [+ y6 K+ g+ O首先,生成一个包含四个不同点集合的数据集。为了强调这是一个非监督的方法,我门在可视化将忽略哪些标签。使用matplotlib进行可视化。
    7 Y# v9 H4 D( d  m
    * N7 G# [, T# e6 s$ u+ |( L! P+ oimport matplotlib.pyplot as plt
    $ B; I+ m( Z2 C( c$ F# P1 |import pylab
    8 R. k; |# u9 yfrom sklearn.datasets._samples_generator import make_blobs
    * t' X& U* g2 `  t3 R0 f2 a4 |0 I: ?- V# z; J
    plt.style.use('ggplot')
    " R! d8 u9 T1 ~0 c& z% Hx,y=make_blobs(n_samples=300,centers=4,cluster_std=1.0,random_state=10)
    ) T% r0 O- a( o9 ]8 B5 v( ?plt.scatter(x[:,0],x[:,1],s=100)
    ' P9 A5 ~  [. Ppylab.show()
    6 G: L) o: e  k' ]& l3 [4 @. K" i3 }9 W; y& k* o

    - Q5 x( p, f7 z1 r! p2 b  P1 o2 e. S16 h5 X* @0 i" e
    2
    ; d. k& t/ D. J! m3
    / Y% W3 }3 A& K' M6 _3 B4/ C! x3 \' V- f: G' _# u
    5
    1 T7 n8 Z+ S) e. p% y6
    3 ?0 P; A1 L( Z4 _% y. x76 F9 e3 g) |( P: {& C/ J+ f
    8; U/ n. n0 V) W$ X" J4 U
    90 j6 y7 w1 Y6 W( h  \' e$ K
    10& }' w( B! J2 ^3 d  |
    : H9 ^0 P  ~" b! v  i4 a8 u+ S/ W
    我们创建一个四个不同区域的聚类,centers=4,一共300节点。
    . z! x0 V: \5 g如上程序生成图像所示结果。( Y1 `: F' A( }; j/ a
    尽管没有给数据分配目标标签,但直接使用肉眼还是可以看出来一共是四类。% X% r1 j2 e. t! a+ e8 m4 ^0 ]) ?
    kmeans就可以通过算法办到,无需任何关于目标的标签或者潜在的数据分布的信息。( V3 U& ?3 l7 S7 V7 |7 \4 l
    当然尽管,kmeans在opencv中是一个统计模型,不能调用api中的train和predict。相反,使用cv2.kmeans可以直接使用这个算法。。为了使用这个模型,我们需要指定一些参数,比如终止条件,和初始化标志。% D+ A% B7 P9 Z

    - d5 M8 u! C; s5 M$ o7 Y3 M我们让算法误差小于1.0(cv2.TERM_CRITERIA_EPS),或者已经 执行了十次迭代(cv2.TERM_CITTERIA_MAX_ITER)时候终止。
    / z9 ~1 a. X" p6 H
    2 T% f! \: h& l! z, e6 ]8 G$ R
    : y9 b% P6 _( t) B2 m3 ?: x, x6 V& x
    import matplotlib.pyplot as plt
    2 {. l; r9 C% r! P# ~+ u6 ~1 c; U9 Eimport pylab# ?7 s+ p1 R$ I+ ]! C( O2 g
    from sklearn.datasets._samples_generator import make_blobs* y* e& D7 @* c6 d4 N1 h
    import cv2- c% }( p6 x1 X  G0 f8 K
    import numpy as np) f: A& A. J; m0 ?7 \% i
    , A2 N  Z$ X+ v
    plt.style.use('ggplot')
    , a8 P# [6 F4 S& Bx,y=make_blobs(n_samples=300,centers=4,cluster_std=1.0,random_state=10)
      h1 F& m4 p1 t# Y4 O& H& Uplt.scatter(x[:,0],x[:,1],s=100); x; b, y, ?+ k- t! }+ i

    9 `' c# ^9 ]4 o9 h8 v
    3 N  J3 D' ?# b" Y$ M6 U2 b! Y* ecriteria=(cv2.TERM_CRITERIA_EPS+cv2.TERM_CRITERIA_MAX_ITER,10,1.0)
    " P) H$ f9 V8 x9 ^flags=cv2.KMEANS_RANDOM_CENTERS/ R/ g! Y: l0 Z1 P- y) g
    compactness,labels,centers=cv2.kmeans(x.astype(np.float32),4,None,criteria,10,flags)
    ! F% o' E  w& c( N; u8 L& _/ aprint(compactness)# X5 `3 `9 ^8 F- D5 g' n

    ( w9 J- P6 }4 R! ^! ?plt.scatter(x[:,0],x[:,1],c=labels,s=50,cmap='viridis')" ?, _3 @# o: n4 e' @5 G* l# C
    plt.scatter(centers[:,0],centers[:,1],c='black',s=200,alpha=0.5)& {' x3 j; Q9 e4 a( Z7 S, }
    1 C) ]0 {3 G: g( F
    pylab.show()& R2 H7 r" e& [  _4 p
    - W6 ?- Z0 |5 c/ k( Q
    - K& ], N- v. _! z
    6 o* m  a' r3 }
    ' C, F& G4 c3 G  }% ]2 e
    ( v: y& I! }* o+ r
    6 v2 I# U3 B+ w+ n* C! w
    ; x, J( ]9 O( S: {, E
    1& f) l) X2 d; ]4 M
    2
    # B: ]/ E+ K* T6 _+ l" K; H39 W- i8 e# R1 v; @' i
    4. \) M3 j) S* f0 @; M& g
    5
    8 L0 ^7 u4 M: k' G6
    ! M: \; v. n5 E' {; j, C4 B8 R: [7/ c* a* q- r1 B( P' c9 c4 U
    8/ S/ q: a4 Q  H- V  L* g$ b; M
    9
    $ F* }8 }/ G' R) \7 g. X9 U# [10: t6 i* M) f( u+ z
    11
    8 l, C# V* ]0 Q$ V% z12
    % b+ m5 `) |( T8 R139 E" P' N# N7 M; K  q. R
    14
    # |5 p5 ]0 {5 T9 p% `8 X15/ @& X- q" ?2 Z( o1 Y3 M
    16  l4 Q: Z' P* s) F3 x3 f% ?1 A# ?. w
    17: b1 H" k6 j4 a5 N7 }
    18
    2 K9 M" P( E* }2 C( a- S' |19
    * m' q$ }0 H, R20
    8 H) M  z- }% N% ?: F: M* p1 e4 L21
    . b. V  x  m/ O& t( Q/ D22( ]& w# E! Y" {+ `3 M/ Q
    23: n: M" K5 j& x0 c
    24
    3 Y, h- h- H" \% E4 D: \7 G25
    / [$ w8 ]. g7 W0 i/ Q4 ]26* O9 @; S8 N; X& M9 v2 d
    上面程序结果可以产生图2的效果。% a5 p. U' Z8 d
    3 s8 t% i5 y: G1 R7 R2 Y2 D
    print(compactness)这个变量,表示每个点到它聚类中心的距离平方和。较高紧凑都表明所有的点更靠近他们的聚类中心,较低 的紧凑度表明不同的聚类可能无法的很好区分。$ O' _- d0 j0 |  |- C8 f
    4 M2 E, A& T9 n2 D' j, t
    当然,这个是非常依赖于x中的真实值。如果点与点之间最初的距离比较大,那我们就很难得到一个非常小的紧凑度。因此,把数据画出来,并按照聚类标签分配不同颜色,可以显示更多信息。
    9 g$ \; a! C) q7 K9 \2 t, _* [. Q0 H' ]+ l& O$ r
    3理解kmeans" [; r9 U4 U/ d8 R+ r( h0 c8 U. Y5 `
    kmeans是聚类众多常见期望最大化中一个具体的例子。简单来说,算法处理的过程如下所示:" N) }( u* Y; H" x, r
    1.从一些随机的聚类中心开始& Y3 I. i' {4 V7 d
    2.一种重复直到收敛
    2 E/ C) _, W' B2 k& K" n; ?- F& s
    期望步骤:把所有的数据点分配到离他们最近的聚类中心。7 m  @, }, {9 }- ]' a
    最大化步骤:通过取出聚类中所有点的平均来更新聚类中心。' x$ u8 R# T7 a( K
    4 @! O. Y7 n' V; [/ F
    它涉及到一个定义聚类中心位置的适应性函数最大化的过程。对于kmeans最大化是计算一个聚类中所有数据点的算数平均得到。
    0 j0 z( @/ |6 M3 |1 {————————————————  P% A- A" ^7 H' {
    版权声明:本文为CSDN博主「紫钺-高山仰止」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。* u  X5 e5 k4 \
    原文链接:https://blog.csdn.net/qq_43158059/article/details/126789000
    % C+ X2 x' D8 W+ Q+ f7 Q; v3 E* ]+ j9 e7 i/ ~' J

    2 J" ?+ z: m  C/ Z6 l/ E
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-14 07:59 , Processed in 0.392930 second(s), 51 queries .

    回顶部