- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563425 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174250
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
【机器学习】无监督学习的概念,使用无监督学习发现数据的特点! }, i, B2 d9 S
! G. l' C8 D8 H+ n' y5 D) A
到目前位置,我们主要把注意力集中在监督学习的问题上,数据集中的每个数据点都有一个已知的标签或者目标值。然而如果面对没有已知的输出结果,或者没有人监督学习算法,我们要怎么做。0 m0 g" j& J4 t) m; t
7 q! q7 W3 e" X$ w
这就是无监督学习 。
9 D+ t2 C, R' J. g8 o
0 C% N1 t0 B2 p% p' [! R; N" ^在无监督、非监督学习中了,学习过程仅使用输入数据,没有更多的指导信息,要求从这些数据中提取知识。我们已经讨论了非监督学习众多形式的一种降维。另一个普及的领域就是聚类分析。他的目的是吧数据分为相似元素组成的不同区域中。
) W7 v0 s. W" `
! C' M% q5 M; r& W8 \在本章中,我们想要理解不同的聚类算法如何从简单到,无标记的数据集中提取特征。这些结构特征,可以用于特征处理,图像处理,甚至是作为无监督学习任务的预处理步骤。
" U: E% d* M# |作为一个具体的例子,我们将对图像进行聚类,将色彩空间降到16位数。
% X1 q' W8 @' t$ x: {& J- _/ {3 K! F
, G' U" P+ x3 B/ ?: |6 R' F解决的问题
( ~% _# w% d! W: e1.K-means聚类和期望最大化是什么?如何在opencv中实现这些算法。
6 A0 {- d& X5 C4 ^3 S5 `* |2.如何在层次树中使用聚类算法。他带来的好处有哪些。# q$ h8 w2 \9 [, G4 S' M, O: P
3.如何使用无监督学习,进行预处理,图像处理,分类。' ~ m0 i; j7 g% T# X# i8 D
- C' |) F* o5 a2 e# T1 理解无监督学习$ Y6 L2 [% y8 |/ L8 u5 w0 I
无监督学习可能有很多形式,但是他们的目标总是把原始数据转化为更加丰富,更加有意义的表示,这么做可以让人们更容易理解,也可以更方便的使用机器学习算法进行解析。7 P; K. L5 w. f9 x* F8 K7 Z& i
无监督学习的应用包括一下应用:
8 M7 E# M6 G- p4 c' W1降维:他接受一个许多特征的高维度数据表示,尝试对这些数据进行压缩,以使其主要特征,可以使用少量的携带高信息量的数据来表示。
0 s; c0 Q* O; `- J% E1 ]- g5 D2因子分析:用于找到导致被观察的到的数据的隐含因素或者未观察到的方面。$ [" S! I) t* W2 `) Y* J
3聚类分析:
4 O7 F" D0 x' A) g" x尝试把数据分成相似元素组成的不同组。" f$ }6 [$ \% I/ ]# s' N/ b
- p; l) k. e$ K' E
无监督学习主要的挑战就是,如何确定一个算法是否出色,或者学习到什么有用内容,通常评估一个无监督学习算法结果的唯一方式是手动检查,并确定结果是否有意义。' n( W# Q V/ s; B
( V" N& ]4 o, Z L! s0 P' m
话虽然如此,但是非监督学习,可以非常有,比如作为预处理或者特征提取的步骤。
( o8 Z( g; r8 W( `+ t% y1 o- J
5 Z+ h. Z0 C3 v3 b& T2理解K-means聚类
/ M; j2 N. Q$ v& v+ KOpencv 提供最有用的聚类算法是k-means,因为它会从一个没有标记的多维度数据集中搜寻预设的K个聚类结果。
9 M7 Y+ v2 Z- z+ i" G2 S7 {% D- Q% g2 ^3 I; A7 C
它通过两个简单的假设来完成最佳聚类了。. Y8 q" |0 {+ i& C
1 每个聚类中心都是属于该类别的所有数据点的算术平均值0 v# V) W" G6 J& G: [
2 聚类中的每一个点相对其他聚类中心,更靠近本类别的中心。
7 P: u6 h9 b; {' G: `# g
$ _" }7 N5 R& H6 P, ]: M5 h2.1 实现第一个kmeans例子
8 q# r% j: [' o( w5 Y; @, h+ u首先,生成一个包含四个不同点集合的数据集。为了强调这是一个非监督的方法,我门在可视化将忽略哪些标签。使用matplotlib进行可视化。
! X ~7 U. ~/ _ w
; ?" i$ j. _$ x% m5 G9 T, Timport matplotlib.pyplot as plt
0 R2 T" B+ B; Dimport pylab4 ~: y8 R! Q+ O; g* }1 P7 o
from sklearn.datasets._samples_generator import make_blobs
$ ^) |+ h; x5 D0 B+ K0 N0 ~. U
) e+ X2 j+ F, B; \plt.style.use('ggplot')4 M; F$ o# n6 c8 Z7 G3 k, W
x,y=make_blobs(n_samples=300,centers=4,cluster_std=1.0,random_state=10)$ v; T7 N: s" B- P& i% z* J
plt.scatter(x[:,0],x[:,1],s=100)
) y, t2 }6 c/ l7 T+ s1 Z' Qpylab.show()
3 G) K- Q2 H; k5 \! B- j: Q+ `; M
! j7 t' m: R* X0 r( @ s
1& P& n" M* C+ D+ t) R6 S. o
2
4 ?: C& B* A ^/ T1 [$ h0 Z32 g! S1 ]& E7 [5 q
4
o' q q1 Z( I1 F' g- l3 q4 D5 o- U0 i9 i9 F: j% G" d' a
6
/ P- l: c# v3 o* [$ \7
! s8 E6 s/ \6 L8
# j6 {- B! K/ g4 |5 ?0 N9
; ^! ?/ d5 Y( L% z* G O5 g10
" H: }: P; R- d0 B4 u7 v
# ^" t, s2 i E$ O我们创建一个四个不同区域的聚类,centers=4,一共300节点。+ U4 K! ^9 u3 T r% ~
如上程序生成图像所示结果。. K* j/ l4 f8 \+ b+ D0 c/ m/ F
尽管没有给数据分配目标标签,但直接使用肉眼还是可以看出来一共是四类。
5 t# T$ b/ t% i- Ckmeans就可以通过算法办到,无需任何关于目标的标签或者潜在的数据分布的信息。1 \- a) H* i# E
当然尽管,kmeans在opencv中是一个统计模型,不能调用api中的train和predict。相反,使用cv2.kmeans可以直接使用这个算法。。为了使用这个模型,我们需要指定一些参数,比如终止条件,和初始化标志。
* x& E1 e' J: p9 F4 k' N ]# |6 Q# V9 N- A& m# [" v; \
我们让算法误差小于1.0(cv2.TERM_CRITERIA_EPS),或者已经 执行了十次迭代(cv2.TERM_CITTERIA_MAX_ITER)时候终止。1 p2 I, q) w5 k( R' {( Y
7 X% B2 F# E4 Z6 r* M @; O$ B; r0 B4 \% D+ a
4 u1 e* r( Y7 n; }1 ]4 u3 t. K: G
import matplotlib.pyplot as plt5 X: N4 W5 E+ O$ a2 o
import pylab3 r6 e2 }& o3 X/ i% V
from sklearn.datasets._samples_generator import make_blobs' \( u- b7 ^# [# M
import cv2
+ U7 _$ B/ G5 l/ E y' b! }" bimport numpy as np$ b7 c k$ o2 b* A) G+ D6 t3 A- B" f
0 z6 ?/ Q/ L( C0 U3 \2 _
plt.style.use('ggplot'): W; q1 X% K' a! l) J
x,y=make_blobs(n_samples=300,centers=4,cluster_std=1.0,random_state=10)2 a! K) d. w) D4 B S p
plt.scatter(x[:,0],x[:,1],s=100)" }6 S9 {. R4 n* B2 O
! o7 y+ H) z9 P
( j3 X! U0 A3 f3 V+ T
criteria=(cv2.TERM_CRITERIA_EPS+cv2.TERM_CRITERIA_MAX_ITER,10,1.0)
7 @- h! X# T+ Z! }8 w% _& vflags=cv2.KMEANS_RANDOM_CENTERS% f; ?) h; [6 j" j8 S5 o
compactness,labels,centers=cv2.kmeans(x.astype(np.float32),4,None,criteria,10,flags)6 r; H8 u4 V4 E( k/ M9 [$ a
print(compactness)% E0 G! d1 d( F2 ^8 b: k7 x
+ Z0 X8 y6 a9 ^2 o2 \( L2 X/ }plt.scatter(x[:,0],x[:,1],c=labels,s=50,cmap='viridis')
% S& k. m6 \( d8 Jplt.scatter(centers[:,0],centers[:,1],c='black',s=200,alpha=0.5)
6 E$ _- T O2 X6 E2 X' ]( n" G
- M2 c( i O$ o$ V2 mpylab.show()7 F3 J1 P* p# L
, Z$ K( ?( D1 p7 X* K& R- X; H
& M- w U) p* J; y2 a1 ? D8 f0 u8 C9 [6 V+ O
' i7 ?, G1 Z9 W/ }. _
3 v3 `" g' ?% c4 y# U
. C/ M+ o% I& o0 M$ B2 w& X( [3 b
0 A0 w7 p# Z+ X2 r U$ F1& k6 w2 @& M# v; H5 i) y5 ]
2( A; t6 [5 X$ ?
3+ \! z% q9 R- l/ L- L& @3 Y# {) d3 |
4( c. y9 d" M% [' V; I1 a
57 O5 i* h$ f9 Q" N* p* i O* m
6
# b$ c1 ?* e0 W1 h7
$ G$ C: n5 L( N6 ~7 v83 y- p9 b- G* E% b2 Y6 P6 P
9+ T3 a" d" b. j) y, d, T0 X+ [
10
/ _( f" {$ j; V2 Y1 ~! ^' s+ p11) H: X3 s( u/ z3 a
12
: l) N% Z* [0 U0 W134 \9 h" ]! G) p* u5 m+ _3 w
14
/ i* c8 y; C8 e' Y4 o: M0 I) ^3 Y15) X" J) j0 g2 o3 A( e( U
164 r0 R0 z* I2 _% k5 p/ _
17
3 q- Y; Z8 f& i" J! ~& n9 o18
$ R3 j% `2 z. i" d" v19
: p- S1 c U2 y7 q) H204 M( @% \: [6 X( b, s9 C
21
( T8 A* k; c g$ q22
: ?: W# ?$ ]. \3 d4 m23
7 `& J* b; u$ r24# F- A% F8 R2 F+ w/ Z U: [% Y
25
7 m* f* J9 X% j' U26
9 `3 }4 L$ ]; `- s/ T5 b; ]$ K1 h上面程序结果可以产生图2的效果。
1 g! W% g, B x' U8 k9 O& Y2 K/ z4 ?/ A# J* M/ Z
print(compactness)这个变量,表示每个点到它聚类中心的距离平方和。较高紧凑都表明所有的点更靠近他们的聚类中心,较低 的紧凑度表明不同的聚类可能无法的很好区分。2 D. e7 V9 m$ p" Q
" M8 N1 c' E4 W, m当然,这个是非常依赖于x中的真实值。如果点与点之间最初的距离比较大,那我们就很难得到一个非常小的紧凑度。因此,把数据画出来,并按照聚类标签分配不同颜色,可以显示更多信息。5 A5 D. ^* d2 n7 Q# X$ m) g3 h
7 u" T/ l( E; L* T j3理解kmeans
' M1 R: M* ?" ]% k6 mkmeans是聚类众多常见期望最大化中一个具体的例子。简单来说,算法处理的过程如下所示:2 K4 M- B8 j8 r" P) V8 x4 ^
1.从一些随机的聚类中心开始. A j) A6 c5 w# ~
2.一种重复直到收敛
( I# Y( J: m" J5 X0 }
. h: \5 r& U6 O# V3 l6 v# S6 X7 _ C期望步骤:把所有的数据点分配到离他们最近的聚类中心。
6 m! i7 M u9 F0 b# l最大化步骤:通过取出聚类中所有点的平均来更新聚类中心。9 X1 `: q) q P. E# [8 `' O
5 f. q$ b* V. o8 U它涉及到一个定义聚类中心位置的适应性函数最大化的过程。对于kmeans最大化是计算一个聚类中所有数据点的算数平均得到。" F8 u% m, Q! L$ B1 d
————————————————
6 [2 }( T1 ^8 `; b" X, C版权声明:本文为CSDN博主「紫钺-高山仰止」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。# S- E6 l8 e8 @& E' k
原文链接:https://blog.csdn.net/qq_43158059/article/details/1267890007 y( l1 z$ |0 u( c. R
. E4 F5 s U+ O0 b; Q& U: e; M" t9 M" a5 S, e# A) A+ B
|
zan
|