- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563323 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174220
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
【机器学习】无监督学习的概念,使用无监督学习发现数据的特点
1 g4 H2 S" D) N& T
# w9 V& n( G7 h: m9 b6 o6 K到目前位置,我们主要把注意力集中在监督学习的问题上,数据集中的每个数据点都有一个已知的标签或者目标值。然而如果面对没有已知的输出结果,或者没有人监督学习算法,我们要怎么做。
. {4 {$ G- {# x3 d4 k
, W! a. a" \ w$ C" ~7 }3 I这就是无监督学习 。) J* G6 O7 A4 }
; }& Z0 A4 A' X: h% j0 S
在无监督、非监督学习中了,学习过程仅使用输入数据,没有更多的指导信息,要求从这些数据中提取知识。我们已经讨论了非监督学习众多形式的一种降维。另一个普及的领域就是聚类分析。他的目的是吧数据分为相似元素组成的不同区域中。
; N& V# q4 n. B4 w/ X# U+ G8 t
# I$ l9 z: y9 c K/ I0 V在本章中,我们想要理解不同的聚类算法如何从简单到,无标记的数据集中提取特征。这些结构特征,可以用于特征处理,图像处理,甚至是作为无监督学习任务的预处理步骤。) Q4 ]. ^5 k- g q9 i8 G
作为一个具体的例子,我们将对图像进行聚类,将色彩空间降到16位数。
' w, M8 ?! [: @/ \9 y; {* n4 V0 Q
* B4 n: s& l" ]" `2 E解决的问题
% Q6 [! k8 L5 S' u" ^1.K-means聚类和期望最大化是什么?如何在opencv中实现这些算法。
, T, Y% p! O% Z' {5 u3 [0 D/ n0 c2.如何在层次树中使用聚类算法。他带来的好处有哪些。. p9 D( I1 n9 W
3.如何使用无监督学习,进行预处理,图像处理,分类。
- _) b) W/ v% x1 T0 T, |/ h U9 h
1 理解无监督学习0 ^! ^5 _. B6 f" \
无监督学习可能有很多形式,但是他们的目标总是把原始数据转化为更加丰富,更加有意义的表示,这么做可以让人们更容易理解,也可以更方便的使用机器学习算法进行解析。5 A; w4 L4 d- a. g+ [, Q6 |
无监督学习的应用包括一下应用:6 x( G0 u0 m' @( V) @ U7 c0 n, r
1降维:他接受一个许多特征的高维度数据表示,尝试对这些数据进行压缩,以使其主要特征,可以使用少量的携带高信息量的数据来表示。
, A0 }$ E; u+ n9 |2因子分析:用于找到导致被观察的到的数据的隐含因素或者未观察到的方面。
! c9 Q* Q3 r. _1 ^3 c8 A3聚类分析:
$ b. g, h0 v* u" e% d5 }2 T# p尝试把数据分成相似元素组成的不同组。
1 [ }! u0 e( t0 {9 f8 ^: J2 Q* z3 t0 ]9 S1 j, U7 E1 }8 D- Q6 R# Q
无监督学习主要的挑战就是,如何确定一个算法是否出色,或者学习到什么有用内容,通常评估一个无监督学习算法结果的唯一方式是手动检查,并确定结果是否有意义。; R/ Y' s, O- S/ r4 t
) ? [( l8 y. f
话虽然如此,但是非监督学习,可以非常有,比如作为预处理或者特征提取的步骤。
: z5 m* ?/ F0 n9 W$ I5 j- b
8 E% i( W9 J ^" \% S2理解K-means聚类& O" M5 B3 Y, n- l1 B3 q
Opencv 提供最有用的聚类算法是k-means,因为它会从一个没有标记的多维度数据集中搜寻预设的K个聚类结果。
( K. a/ F3 k8 o8 P4 k
5 `/ n# Q8 M8 H: P6 D它通过两个简单的假设来完成最佳聚类了。
+ H8 r% O3 e4 u: O0 ` z, r! R% G, _1 每个聚类中心都是属于该类别的所有数据点的算术平均值& |" Q# ]* W0 S- @" @* {1 i. t
2 聚类中的每一个点相对其他聚类中心,更靠近本类别的中心。
( n/ z% k7 H1 r2 K. S9 @. N) F# \3 N q/ C
2.1 实现第一个kmeans例子
; F; P& [+ y6 K+ g+ O首先,生成一个包含四个不同点集合的数据集。为了强调这是一个非监督的方法,我门在可视化将忽略哪些标签。使用matplotlib进行可视化。
7 Y# v9 H4 D( d m
* N7 G# [, T# e6 s$ u+ |( L! P+ oimport matplotlib.pyplot as plt
$ B; I+ m( Z2 C( c$ F# P1 |import pylab
8 R. k; |# u9 yfrom sklearn.datasets._samples_generator import make_blobs
* t' X& U* g2 ` t3 R0 f2 a4 |0 I: ?- V# z; J
plt.style.use('ggplot')
" R! d8 u9 T1 ~0 c& z% Hx,y=make_blobs(n_samples=300,centers=4,cluster_std=1.0,random_state=10)
) T% r0 O- a( o9 ]8 B5 v( ?plt.scatter(x[:,0],x[:,1],s=100)
' P9 A5 ~ [. Ppylab.show()
6 G: L) o: e k' ]& l3 [4 @. K" i3 }9 W; y& k* o
- Q5 x( p, f7 z1 r! p2 b P1 o2 e. S16 h5 X* @0 i" e
2
; d. k& t/ D. J! m3
/ Y% W3 }3 A& K' M6 _3 B4/ C! x3 \' V- f: G' _# u
5
1 T7 n8 Z+ S) e. p% y6
3 ?0 P; A1 L( Z4 _% y. x76 F9 e3 g) |( P: {& C/ J+ f
8; U/ n. n0 V) W$ X" J4 U
90 j6 y7 w1 Y6 W( h \' e$ K
10& }' w( B! J2 ^3 d |
: H9 ^0 P ~" b! v i4 a8 u+ S/ W
我们创建一个四个不同区域的聚类,centers=4,一共300节点。
. z! x0 V: \5 g如上程序生成图像所示结果。( Y1 `: F' A( }; j/ a
尽管没有给数据分配目标标签,但直接使用肉眼还是可以看出来一共是四类。% X% r1 j2 e. t! a+ e8 m4 ^0 ]) ?
kmeans就可以通过算法办到,无需任何关于目标的标签或者潜在的数据分布的信息。( V3 U& ?3 l7 S7 V7 |7 \4 l
当然尽管,kmeans在opencv中是一个统计模型,不能调用api中的train和predict。相反,使用cv2.kmeans可以直接使用这个算法。。为了使用这个模型,我们需要指定一些参数,比如终止条件,和初始化标志。% D+ A% B7 P9 Z
- d5 M8 u! C; s5 M$ o7 Y3 M我们让算法误差小于1.0(cv2.TERM_CRITERIA_EPS),或者已经 执行了十次迭代(cv2.TERM_CITTERIA_MAX_ITER)时候终止。
/ z9 ~1 a. X" p6 H
2 T% f! \: h& l! z, e6 ]8 G$ R
: y9 b% P6 _( t) B2 m3 ?: x, x6 V& x
import matplotlib.pyplot as plt
2 {. l; r9 C% r! P# ~+ u6 ~1 c; U9 Eimport pylab# ?7 s+ p1 R$ I+ ]! C( O2 g
from sklearn.datasets._samples_generator import make_blobs* y* e& D7 @* c6 d4 N1 h
import cv2- c% }( p6 x1 X G0 f8 K
import numpy as np) f: A& A. J; m0 ?7 \% i
, A2 N Z$ X+ v
plt.style.use('ggplot')
, a8 P# [6 F4 S& Bx,y=make_blobs(n_samples=300,centers=4,cluster_std=1.0,random_state=10)
h1 F& m4 p1 t# Y4 O& H& Uplt.scatter(x[:,0],x[:,1],s=100); x; b, y, ?+ k- t! }+ i
9 `' c# ^9 ]4 o9 h8 v
3 N J3 D' ?# b" Y$ M6 U2 b! Y* ecriteria=(cv2.TERM_CRITERIA_EPS+cv2.TERM_CRITERIA_MAX_ITER,10,1.0)
" P) H$ f9 V8 x9 ^flags=cv2.KMEANS_RANDOM_CENTERS/ R/ g! Y: l0 Z1 P- y) g
compactness,labels,centers=cv2.kmeans(x.astype(np.float32),4,None,criteria,10,flags)
! F% o' E w& c( N; u8 L& _/ aprint(compactness)# X5 `3 `9 ^8 F- D5 g' n
( w9 J- P6 }4 R! ^! ?plt.scatter(x[:,0],x[:,1],c=labels,s=50,cmap='viridis')" ?, _3 @# o: n4 e' @5 G* l# C
plt.scatter(centers[:,0],centers[:,1],c='black',s=200,alpha=0.5)& {' x3 j; Q9 e4 a( Z7 S, }
1 C) ]0 {3 G: g( F
pylab.show()& R2 H7 r" e& [ _4 p
- W6 ?- Z0 |5 c/ k( Q
- K& ], N- v. _! z
6 o* m a' r3 }
' C, F& G4 c3 G }% ]2 e
( v: y& I! }* o+ r
6 v2 I# U3 B+ w+ n* C! w
; x, J( ]9 O( S: {, E
1& f) l) X2 d; ]4 M
2
# B: ]/ E+ K* T6 _+ l" K; H39 W- i8 e# R1 v; @' i
4. \) M3 j) S* f0 @; M& g
5
8 L0 ^7 u4 M: k' G6
! M: \; v. n5 E' {; j, C4 B8 R: [7/ c* a* q- r1 B( P' c9 c4 U
8/ S/ q: a4 Q H- V L* g$ b; M
9
$ F* }8 }/ G' R) \7 g. X9 U# [10: t6 i* M) f( u+ z
11
8 l, C# V* ]0 Q$ V% z12
% b+ m5 `) |( T8 R139 E" P' N# N7 M; K q. R
14
# |5 p5 ]0 {5 T9 p% `8 X15/ @& X- q" ?2 Z( o1 Y3 M
16 l4 Q: Z' P* s) F3 x3 f% ?1 A# ?. w
17: b1 H" k6 j4 a5 N7 }
18
2 K9 M" P( E* }2 C( a- S' |19
* m' q$ }0 H, R20
8 H) M z- }% N% ?: F: M* p1 e4 L21
. b. V x m/ O& t( Q/ D22( ]& w# E! Y" {+ `3 M/ Q
23: n: M" K5 j& x0 c
24
3 Y, h- h- H" \% E4 D: \7 G25
/ [$ w8 ]. g7 W0 i/ Q4 ]26* O9 @; S8 N; X& M9 v2 d
上面程序结果可以产生图2的效果。% a5 p. U' Z8 d
3 s8 t% i5 y: G1 R7 R2 Y2 D
print(compactness)这个变量,表示每个点到它聚类中心的距离平方和。较高紧凑都表明所有的点更靠近他们的聚类中心,较低 的紧凑度表明不同的聚类可能无法的很好区分。$ O' _- d0 j0 | |- C8 f
4 M2 E, A& T9 n2 D' j, t
当然,这个是非常依赖于x中的真实值。如果点与点之间最初的距离比较大,那我们就很难得到一个非常小的紧凑度。因此,把数据画出来,并按照聚类标签分配不同颜色,可以显示更多信息。
9 g$ \; a! C) q7 K9 \2 t, _* [. Q0 H' ]+ l& O$ r
3理解kmeans" [; r9 U4 U/ d8 R+ r( h0 c8 U. Y5 `
kmeans是聚类众多常见期望最大化中一个具体的例子。简单来说,算法处理的过程如下所示:" N) }( u* Y; H" x, r
1.从一些随机的聚类中心开始& Y3 I. i' {4 V7 d
2.一种重复直到收敛
2 E/ C) _, W' B2 k& K" n; ?- F& s
期望步骤:把所有的数据点分配到离他们最近的聚类中心。7 m @, }, {9 }- ]' a
最大化步骤:通过取出聚类中所有点的平均来更新聚类中心。' x$ u8 R# T7 a( K
4 @! O. Y7 n' V; [/ F
它涉及到一个定义聚类中心位置的适应性函数最大化的过程。对于kmeans最大化是计算一个聚类中所有数据点的算数平均得到。
0 j0 z( @/ |6 M3 |1 {———————————————— P% A- A" ^7 H' {
版权声明:本文为CSDN博主「紫钺-高山仰止」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。* u X5 e5 k4 \
原文链接:https://blog.csdn.net/qq_43158059/article/details/126789000
% C+ X2 x' D8 W+ Q+ f7 Q; v3 E* ]+ j9 e7 i/ ~' J
2 J" ?+ z: m C/ Z6 l/ E |
zan
|