QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3375|回复: 0
打印 上一主题 下一主题

[其他资源] 【机器学习】无监督学习的概念,使用无监督学习发现数据的特点

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-14 16:37 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    【机器学习】无监督学习的概念,使用无监督学习发现数据的特点
    4 b3 ^7 t9 e, j0 [# \. X: C2 p0 J  X9 R/ x
    到目前位置,我们主要把注意力集中在监督学习的问题上,数据集中的每个数据点都有一个已知的标签或者目标值。然而如果面对没有已知的输出结果,或者没有人监督学习算法,我们要怎么做。
    " ?: p9 G3 B3 ^6 \. h/ K5 q+ S: h+ X. O. r$ F* J
    这就是无监督学习 。' t4 v0 W, K- }. h  Y, q. g

    ( ?6 n: E8 m- r1 N7 x在无监督、非监督学习中了,学习过程仅使用输入数据,没有更多的指导信息,要求从这些数据中提取知识。我们已经讨论了非监督学习众多形式的一种降维。另一个普及的领域就是聚类分析。他的目的是吧数据分为相似元素组成的不同区域中。8 t2 z* W! e( m% y: k. l

    " ^  G* j7 i( S在本章中,我们想要理解不同的聚类算法如何从简单到,无标记的数据集中提取特征。这些结构特征,可以用于特征处理,图像处理,甚至是作为无监督学习任务的预处理步骤。
    & i  A/ r8 I& j- R- L, h/ g7 ^作为一个具体的例子,我们将对图像进行聚类,将色彩空间降到16位数。
    % a2 C7 C0 Y7 o# W; `* e: h3 I3 x* v2 o+ G. e9 O
    解决的问题
    ; b/ j9 b, i) W7 W% r8 X) \1.K-means聚类和期望最大化是什么?如何在opencv中实现这些算法。" P/ a$ x( y. J, E
    2.如何在层次树中使用聚类算法。他带来的好处有哪些。
    + y- m: M( H, ~; ?3.如何使用无监督学习,进行预处理,图像处理,分类。
    ( }# F: Q) ~! `8 V6 {9 M' }
      J! ^5 s6 N- x% q. @1 理解无监督学习
    ( ?* O1 O: x% P. E! \无监督学习可能有很多形式,但是他们的目标总是把原始数据转化为更加丰富,更加有意义的表示,这么做可以让人们更容易理解,也可以更方便的使用机器学习算法进行解析。; P* c; ~3 {# C% y' V
    无监督学习的应用包括一下应用:
    0 q1 c) D0 \- X' \2 c1降维:他接受一个许多特征的高维度数据表示,尝试对这些数据进行压缩,以使其主要特征,可以使用少量的携带高信息量的数据来表示。
    2 V2 x+ i; O* C/ ]2因子分析:用于找到导致被观察的到的数据的隐含因素或者未观察到的方面。# n9 o3 ?1 S3 d9 L/ s$ `
    3聚类分析:
    # r  R7 W1 x3 \8 T* Y  B尝试把数据分成相似元素组成的不同组。& X5 J- Y& h$ k  z

    / S0 C& Y6 C% s无监督学习主要的挑战就是,如何确定一个算法是否出色,或者学习到什么有用内容,通常评估一个无监督学习算法结果的唯一方式是手动检查,并确定结果是否有意义。
      ~) O; ~+ n+ N8 l* Q; }0 j8 f9 d% N& Y4 m! Z7 R5 m
    话虽然如此,但是非监督学习,可以非常有,比如作为预处理或者特征提取的步骤。
    2 V$ `# J+ W2 o
    ' K# O8 Q8 \/ F! u. C2理解K-means聚类
    / G6 a" r! v* K# y6 x" t/ {Opencv 提供最有用的聚类算法是k-means,因为它会从一个没有标记的多维度数据集中搜寻预设的K个聚类结果。
    ' U, N" j/ a- y. c2 o: v; V2 {5 }- d2 z
    它通过两个简单的假设来完成最佳聚类了。: }; \+ S3 {: X7 T2 ]
    1 每个聚类中心都是属于该类别的所有数据点的算术平均值
    # o. x$ u# ]5 U+ X3 F, E- X+ w8 g2 聚类中的每一个点相对其他聚类中心,更靠近本类别的中心。! j8 W. e. d/ I- o  ?3 ~6 Q
    ; `5 t; O. {! ~# e+ X3 e
    2.1 实现第一个kmeans例子( y" D' Y& [6 Y' R) K
    首先,生成一个包含四个不同点集合的数据集。为了强调这是一个非监督的方法,我门在可视化将忽略哪些标签。使用matplotlib进行可视化。
    5 ?, C' [# q, `5 z) ^  L
    2 [0 }4 }& ?0 a6 Qimport matplotlib.pyplot as plt
    : L; L3 O& L& p7 Yimport pylab, H5 o7 {% _3 N! b( [3 i- Q. W
    from sklearn.datasets._samples_generator import make_blobs
    + l# P1 Q$ a) m; z; m" z: J7 i3 s: Q( z3 q
    plt.style.use('ggplot')
    : E  V7 s0 S/ t+ W6 J: X$ W/ \  [x,y=make_blobs(n_samples=300,centers=4,cluster_std=1.0,random_state=10)
    , N+ w" a, F0 M* \! Xplt.scatter(x[:,0],x[:,1],s=100)" ~- v+ V' H9 M) J6 ~, c* Q
    pylab.show()$ ~" N8 F& k7 i% `2 J9 V2 p2 m
    0 H# A4 X4 z5 _: D
    & x# Y) _2 J$ K* b5 H
    1
    + h. x1 L$ l' D  C" A* F23 ?& h+ T( N7 r' {/ i
    3; q; F' w* B. N4 c) r( k+ s+ z
    4# }/ {0 s; m4 i9 y! d; ?
    52 r' O$ Z3 _4 e! J. H
    61 v' `8 b  a5 J: X3 N: j& F
    7. ~0 `; H. f7 e, n% |# B
    8* W5 u' e/ p9 C' Q! K( }
    9
    ; q6 s2 p1 t3 t) k, K6 S" O4 ]10
    2 t$ e4 l, ^  a7 A% |& Q! t- _% I* b, I2 E& `: m
    我们创建一个四个不同区域的聚类,centers=4,一共300节点。* k5 X5 L: |2 M& Z$ m+ a
    如上程序生成图像所示结果。! m* q+ G8 f4 b
    尽管没有给数据分配目标标签,但直接使用肉眼还是可以看出来一共是四类。
    $ e1 Y3 `/ {3 w0 K+ Rkmeans就可以通过算法办到,无需任何关于目标的标签或者潜在的数据分布的信息。
    1 ?3 D1 {5 k4 l8 _% c  |当然尽管,kmeans在opencv中是一个统计模型,不能调用api中的train和predict。相反,使用cv2.kmeans可以直接使用这个算法。。为了使用这个模型,我们需要指定一些参数,比如终止条件,和初始化标志。' F7 i  Q: j8 [, O- _3 X

    * r" M( F- u" j: S/ U- f- A3 }我们让算法误差小于1.0(cv2.TERM_CRITERIA_EPS),或者已经 执行了十次迭代(cv2.TERM_CITTERIA_MAX_ITER)时候终止。
    ! V. M) q/ v" V+ F' H( V# u
    " W7 |7 a! v+ [" v1 o) m8 Y* ]# ^- d
    1 e1 w& Z7 k+ B8 z  [: Z* X, P( r
    import matplotlib.pyplot as plt8 J3 r% Y" a8 t3 v! D# y! I9 D
    import pylab+ J$ u& M9 B- w
    from sklearn.datasets._samples_generator import make_blobs, e7 ^4 h3 m6 k
    import cv2
    8 f  B$ d& O& f. U+ R9 }' S7 Rimport numpy as np
    0 ]" p7 I4 q7 w4 K* p% e, }+ |0 F# H" q; X
    2 O$ R  d4 z* Bplt.style.use('ggplot')& k8 d9 o5 C$ c7 p
    x,y=make_blobs(n_samples=300,centers=4,cluster_std=1.0,random_state=10)" P5 k' G& t/ U' G/ x
    plt.scatter(x[:,0],x[:,1],s=100)
    4 ^8 O# l; I; y0 C$ q5 X& i, e3 l+ ?/ b$ ]0 R  x

    : V7 y7 p8 @9 G+ Ecriteria=(cv2.TERM_CRITERIA_EPS+cv2.TERM_CRITERIA_MAX_ITER,10,1.0)- V: @+ r5 W, \; J
    flags=cv2.KMEANS_RANDOM_CENTERS; E: C& z$ E" z! l
    compactness,labels,centers=cv2.kmeans(x.astype(np.float32),4,None,criteria,10,flags)) u" U6 ?, H' L) w5 U
    print(compactness)
    2 m- e% V2 g4 N9 `5 N- j' f9 x# z$ t- X# I
    plt.scatter(x[:,0],x[:,1],c=labels,s=50,cmap='viridis')! m. B3 ~$ o/ w  \7 R  Y
    plt.scatter(centers[:,0],centers[:,1],c='black',s=200,alpha=0.5)2 b& e* A# u1 j) R  ~

    : }) y6 w. d4 o) I" v7 r1 vpylab.show()
    ' w  o: q' G- X' g, p+ D0 H, u. }0 V5 f. M

    & |! ^% w4 T& i9 N$ o, q
    9 V# W4 Q* f( o5 u; E1 G6 d
    ' K2 I; P# P. l; d- w/ h* ~3 L9 w+ R+ s3 e5 g  f0 {- u+ d9 w
    7 c7 G1 G$ d. G& C8 B
    0 H% U3 _" y7 p! Y% |
    10 I* x- ^5 G  [/ B  ~" n
    2( Q+ h. D5 k" h
    3$ x$ B# @, r  p! o: |# E) M/ Q
    4
    : @: m3 J5 n+ }' [) p- E$ l54 S. f, Y( N, e
    6
    0 S1 S/ F: J/ A7& s7 i1 G, U. s9 \, C
    8! }# |6 C' B; A7 K" }
    9+ D7 _1 j- \! |" `9 }# @4 j5 r# X: ^
    10( `4 M, S0 s3 z- Q5 C6 z/ u4 H6 C
    11
    ! e* A/ \0 W" j% n4 i125 y' z4 [1 ?& x" w
    13
    0 W- \! J( D# D9 c7 j' \14
    / H. B5 F, w( E5 u: Q! D* }15
    9 q  r6 i$ X8 e7 p, Z' e16& V; ]- x& d2 ^3 i( I; X0 X" B
    17
    7 v; |) h/ f! \5 |5 `18
    ! }+ C2 |0 ]  S4 Q! b5 a  N$ @# Y19
    # @5 X& t$ c, J0 D1 k0 B20
    ) D3 h5 s1 V3 V. s* S' o- h21% F$ H) B: {6 m+ ?1 ?
    22
    ( f" g8 M$ C8 ^: n. Z4 ]23
    6 s7 f) a7 q+ Z$ N! c6 z3 v2 u24
    $ J. @7 s# _$ q250 K: k) u/ X6 u
    26: f& H. q' b) x+ |. U
    上面程序结果可以产生图2的效果。2 ~, v0 k- H4 Z! A5 p2 P
    / U" F( ^2 v7 P% `. n) M6 X
    print(compactness)这个变量,表示每个点到它聚类中心的距离平方和。较高紧凑都表明所有的点更靠近他们的聚类中心,较低 的紧凑度表明不同的聚类可能无法的很好区分。
    - f. Y/ ^* t$ C( k, c+ R
    . o7 l* }' h. W6 y; d2 ~# h当然,这个是非常依赖于x中的真实值。如果点与点之间最初的距离比较大,那我们就很难得到一个非常小的紧凑度。因此,把数据画出来,并按照聚类标签分配不同颜色,可以显示更多信息。
    3 y3 k1 [6 `0 a5 ^1 t0 ^% r; P+ r9 J0 J
    3理解kmeans
    * R4 f. v$ z. ]' Q; _kmeans是聚类众多常见期望最大化中一个具体的例子。简单来说,算法处理的过程如下所示:
    6 Z  s) N* J4 c6 `4 x) D1.从一些随机的聚类中心开始
    + v5 ]; c2 g" z; m6 t% e- z/ I2.一种重复直到收敛
    - x" h3 I  t! k; W
    ; d+ D) u& W* }: Q: S$ z1 s: V4 C) k期望步骤:把所有的数据点分配到离他们最近的聚类中心。% R0 L9 G# G9 F8 v
    最大化步骤:通过取出聚类中所有点的平均来更新聚类中心。* Z. s+ y3 L1 A7 _

    3 H+ u1 @1 H9 O它涉及到一个定义聚类中心位置的适应性函数最大化的过程。对于kmeans最大化是计算一个聚类中所有数据点的算数平均得到。
    6 c/ Y( @. K, d  x+ C$ t————————————————( A. C9 Y( z" ~4 V. F
    版权声明:本文为CSDN博主「紫钺-高山仰止」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    % U' E9 X. z! J原文链接:https://blog.csdn.net/qq_43158059/article/details/126789000$ Z$ h/ ~) Q0 k/ Y* K! U/ r

    0 ~. w% O; ]8 n' k- M) e
    ( D' K- g5 S1 C7 j$ ]4 ^/ a" r
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-13 23:46 , Processed in 0.419153 second(s), 51 queries .

    回顶部