QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3381|回复: 0
打印 上一主题 下一主题

[其他资源] 【机器学习】无监督学习的概念,使用无监督学习发现数据的特点

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-14 16:37 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    【机器学习】无监督学习的概念,使用无监督学习发现数据的特点! }, i, B2 d9 S
    ! G. l' C8 D8 H+ n' y5 D) A
    到目前位置,我们主要把注意力集中在监督学习的问题上,数据集中的每个数据点都有一个已知的标签或者目标值。然而如果面对没有已知的输出结果,或者没有人监督学习算法,我们要怎么做。0 m0 g" j& J4 t) m; t
    7 q! q7 W3 e" X$ w
    这就是无监督学习 。
    9 D+ t2 C, R' J. g8 o
    0 C% N1 t0 B2 p% p' [! R; N" ^在无监督、非监督学习中了,学习过程仅使用输入数据,没有更多的指导信息,要求从这些数据中提取知识。我们已经讨论了非监督学习众多形式的一种降维。另一个普及的领域就是聚类分析。他的目的是吧数据分为相似元素组成的不同区域中。
    ) W7 v0 s. W" `
    ! C' M% q5 M; r& W8 \在本章中,我们想要理解不同的聚类算法如何从简单到,无标记的数据集中提取特征。这些结构特征,可以用于特征处理,图像处理,甚至是作为无监督学习任务的预处理步骤。
    " U: E% d* M# |作为一个具体的例子,我们将对图像进行聚类,将色彩空间降到16位数。
    % X1 q' W8 @' t$ x: {& J- _/ {3 K! F
    , G' U" P+ x3 B/ ?: |6 R' F解决的问题
    ( ~% _# w% d! W: e1.K-means聚类和期望最大化是什么?如何在opencv中实现这些算法。
    6 A0 {- d& X5 C4 ^3 S5 `* |2.如何在层次树中使用聚类算法。他带来的好处有哪些。# q$ h8 w2 \9 [, G4 S' M, O: P
    3.如何使用无监督学习,进行预处理,图像处理,分类。' ~  m0 i; j7 g% T# X# i8 D

    - C' |) F* o5 a2 e# T1 理解无监督学习$ Y6 L2 [% y8 |/ L8 u5 w0 I
    无监督学习可能有很多形式,但是他们的目标总是把原始数据转化为更加丰富,更加有意义的表示,这么做可以让人们更容易理解,也可以更方便的使用机器学习算法进行解析。7 P; K. L5 w. f9 x* F8 K7 Z& i
    无监督学习的应用包括一下应用:
    8 M7 E# M6 G- p4 c' W1降维:他接受一个许多特征的高维度数据表示,尝试对这些数据进行压缩,以使其主要特征,可以使用少量的携带高信息量的数据来表示。
    0 s; c0 Q* O; `- J% E1 ]- g5 D2因子分析:用于找到导致被观察的到的数据的隐含因素或者未观察到的方面。$ [" S! I) t* W2 `) Y* J
    3聚类分析:
    4 O7 F" D0 x' A) g" x尝试把数据分成相似元素组成的不同组。" f$ }6 [$ \% I/ ]# s' N/ b
    - p; l) k. e$ K' E
    无监督学习主要的挑战就是,如何确定一个算法是否出色,或者学习到什么有用内容,通常评估一个无监督学习算法结果的唯一方式是手动检查,并确定结果是否有意义。' n( W# Q  V/ s; B
    ( V" N& ]4 o, Z  L! s0 P' m
    话虽然如此,但是非监督学习,可以非常有,比如作为预处理或者特征提取的步骤。
    ( o8 Z( g; r8 W( `+ t% y1 o- J
    5 Z+ h. Z0 C3 v3 b& T2理解K-means聚类
    / M; j2 N. Q$ v& v+ KOpencv 提供最有用的聚类算法是k-means,因为它会从一个没有标记的多维度数据集中搜寻预设的K个聚类结果。
    9 M7 Y+ v2 Z- z+ i" G2 S7 {% D- Q% g2 ^3 I; A7 C
    它通过两个简单的假设来完成最佳聚类了。. Y8 q" |0 {+ i& C
    1 每个聚类中心都是属于该类别的所有数据点的算术平均值0 v# V) W" G6 J& G: [
    2 聚类中的每一个点相对其他聚类中心,更靠近本类别的中心。
    7 P: u6 h9 b; {' G: `# g
    $ _" }7 N5 R& H6 P, ]: M5 h2.1 实现第一个kmeans例子
    8 q# r% j: [' o( w5 Y; @, h+ u首先,生成一个包含四个不同点集合的数据集。为了强调这是一个非监督的方法,我门在可视化将忽略哪些标签。使用matplotlib进行可视化。
    ! X  ~7 U. ~/ _  w
    ; ?" i$ j. _$ x% m5 G9 T, Timport matplotlib.pyplot as plt
    0 R2 T" B+ B; Dimport pylab4 ~: y8 R! Q+ O; g* }1 P7 o
    from sklearn.datasets._samples_generator import make_blobs
    $ ^) |+ h; x5 D0 B+ K0 N0 ~. U
    ) e+ X2 j+ F, B; \plt.style.use('ggplot')4 M; F$ o# n6 c8 Z7 G3 k, W
    x,y=make_blobs(n_samples=300,centers=4,cluster_std=1.0,random_state=10)$ v; T7 N: s" B- P& i% z* J
    plt.scatter(x[:,0],x[:,1],s=100)
    ) y, t2 }6 c/ l7 T+ s1 Z' Qpylab.show()
    3 G) K- Q2 H; k5 \! B- j: Q+ `; M
    ! j7 t' m: R* X0 r( @  s
    1& P& n" M* C+ D+ t) R6 S. o
    2
    4 ?: C& B* A  ^/ T1 [$ h0 Z32 g! S1 ]& E7 [5 q
    4
      o' q  q1 Z( I1 F' g- l3 q4 D5  o- U0 i9 i9 F: j% G" d' a
    6
    / P- l: c# v3 o* [$ \7
    ! s8 E6 s/ \6 L8
    # j6 {- B! K/ g4 |5 ?0 N9
    ; ^! ?/ d5 Y( L% z* G  O5 g10
    " H: }: P; R- d0 B4 u7 v
    # ^" t, s2 i  E$ O我们创建一个四个不同区域的聚类,centers=4,一共300节点。+ U4 K! ^9 u3 T  r% ~
    如上程序生成图像所示结果。. K* j/ l4 f8 \+ b+ D0 c/ m/ F
    尽管没有给数据分配目标标签,但直接使用肉眼还是可以看出来一共是四类。
    5 t# T$ b/ t% i- Ckmeans就可以通过算法办到,无需任何关于目标的标签或者潜在的数据分布的信息。1 \- a) H* i# E
    当然尽管,kmeans在opencv中是一个统计模型,不能调用api中的train和predict。相反,使用cv2.kmeans可以直接使用这个算法。。为了使用这个模型,我们需要指定一些参数,比如终止条件,和初始化标志。
    * x& E1 e' J: p9 F4 k' N  ]# |6 Q# V9 N- A& m# [" v; \
    我们让算法误差小于1.0(cv2.TERM_CRITERIA_EPS),或者已经 执行了十次迭代(cv2.TERM_CITTERIA_MAX_ITER)时候终止。1 p2 I, q) w5 k( R' {( Y

    7 X% B2 F# E4 Z6 r* M  @; O$ B; r0 B4 \% D+ a
    4 u1 e* r( Y7 n; }1 ]4 u3 t. K: G
    import matplotlib.pyplot as plt5 X: N4 W5 E+ O$ a2 o
    import pylab3 r6 e2 }& o3 X/ i% V
    from sklearn.datasets._samples_generator import make_blobs' \( u- b7 ^# [# M
    import cv2
    + U7 _$ B/ G5 l/ E  y' b! }" bimport numpy as np$ b7 c  k$ o2 b* A) G+ D6 t3 A- B" f
    0 z6 ?/ Q/ L( C0 U3 \2 _
    plt.style.use('ggplot'): W; q1 X% K' a! l) J
    x,y=make_blobs(n_samples=300,centers=4,cluster_std=1.0,random_state=10)2 a! K) d. w) D4 B  S  p
    plt.scatter(x[:,0],x[:,1],s=100)" }6 S9 {. R4 n* B2 O
    ! o7 y+ H) z9 P
    ( j3 X! U0 A3 f3 V+ T
    criteria=(cv2.TERM_CRITERIA_EPS+cv2.TERM_CRITERIA_MAX_ITER,10,1.0)
    7 @- h! X# T+ Z! }8 w% _& vflags=cv2.KMEANS_RANDOM_CENTERS% f; ?) h; [6 j" j8 S5 o
    compactness,labels,centers=cv2.kmeans(x.astype(np.float32),4,None,criteria,10,flags)6 r; H8 u4 V4 E( k/ M9 [$ a
    print(compactness)% E0 G! d1 d( F2 ^8 b: k7 x

    + Z0 X8 y6 a9 ^2 o2 \( L2 X/ }plt.scatter(x[:,0],x[:,1],c=labels,s=50,cmap='viridis')
    % S& k. m6 \( d8 Jplt.scatter(centers[:,0],centers[:,1],c='black',s=200,alpha=0.5)
    6 E$ _- T  O2 X6 E2 X' ]( n" G
    - M2 c( i  O$ o$ V2 mpylab.show()7 F3 J1 P* p# L

    , Z$ K( ?( D1 p7 X* K& R- X; H
    & M- w  U) p* J; y2 a1 ?  D8 f0 u8 C9 [6 V+ O

    ' i7 ?, G1 Z9 W/ }. _
    3 v3 `" g' ?% c4 y# U
    . C/ M+ o% I& o0 M$ B2 w& X( [3 b
    0 A0 w7 p# Z+ X2 r  U$ F1& k6 w2 @& M# v; H5 i) y5 ]
    2( A; t6 [5 X$ ?
    3+ \! z% q9 R- l/ L- L& @3 Y# {) d3 |
    4( c. y9 d" M% [' V; I1 a
    57 O5 i* h$ f9 Q" N* p* i  O* m
    6
    # b$ c1 ?* e0 W1 h7
    $ G$ C: n5 L( N6 ~7 v83 y- p9 b- G* E% b2 Y6 P6 P
    9+ T3 a" d" b. j) y, d, T0 X+ [
    10
    / _( f" {$ j; V2 Y1 ~! ^' s+ p11) H: X3 s( u/ z3 a
    12
    : l) N% Z* [0 U0 W134 \9 h" ]! G) p* u5 m+ _3 w
    14
    / i* c8 y; C8 e' Y4 o: M0 I) ^3 Y15) X" J) j0 g2 o3 A( e( U
    164 r0 R0 z* I2 _% k5 p/ _
    17
    3 q- Y; Z8 f& i" J! ~& n9 o18
    $ R3 j% `2 z. i" d" v19
    : p- S1 c  U2 y7 q) H204 M( @% \: [6 X( b, s9 C
    21
    ( T8 A* k; c  g$ q22
    : ?: W# ?$ ]. \3 d4 m23
    7 `& J* b; u$ r24# F- A% F8 R2 F+ w/ Z  U: [% Y
    25
    7 m* f* J9 X% j' U26
    9 `3 }4 L$ ]; `- s/ T5 b; ]$ K1 h上面程序结果可以产生图2的效果。
    1 g! W% g, B  x' U8 k9 O& Y2 K/ z4 ?/ A# J* M/ Z
    print(compactness)这个变量,表示每个点到它聚类中心的距离平方和。较高紧凑都表明所有的点更靠近他们的聚类中心,较低 的紧凑度表明不同的聚类可能无法的很好区分。2 D. e7 V9 m$ p" Q

    " M8 N1 c' E4 W, m当然,这个是非常依赖于x中的真实值。如果点与点之间最初的距离比较大,那我们就很难得到一个非常小的紧凑度。因此,把数据画出来,并按照聚类标签分配不同颜色,可以显示更多信息。5 A5 D. ^* d2 n7 Q# X$ m) g3 h

    7 u" T/ l( E; L* T  j3理解kmeans
    ' M1 R: M* ?" ]% k6 mkmeans是聚类众多常见期望最大化中一个具体的例子。简单来说,算法处理的过程如下所示:2 K4 M- B8 j8 r" P) V8 x4 ^
    1.从一些随机的聚类中心开始. A  j) A6 c5 w# ~
    2.一种重复直到收敛
    ( I# Y( J: m" J5 X0 }
    . h: \5 r& U6 O# V3 l6 v# S6 X7 _  C期望步骤:把所有的数据点分配到离他们最近的聚类中心。
    6 m! i7 M  u9 F0 b# l最大化步骤:通过取出聚类中所有点的平均来更新聚类中心。9 X1 `: q) q  P. E# [8 `' O

    5 f. q$ b* V. o8 U它涉及到一个定义聚类中心位置的适应性函数最大化的过程。对于kmeans最大化是计算一个聚类中所有数据点的算数平均得到。" F8 u% m, Q! L$ B1 d
    ————————————————
    6 [2 }( T1 ^8 `; b" X, C版权声明:本文为CSDN博主「紫钺-高山仰止」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。# S- E6 l8 e8 @& E' k
    原文链接:https://blog.csdn.net/qq_43158059/article/details/1267890007 y( l1 z$ |0 u( c. R

    . E4 F5 s  U+ O0 b; Q& U: e; M" t9 M" a5 S, e# A) A+ B
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-21 23:02 , Processed in 0.448097 second(s), 50 queries .

    回顶部