- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563322 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174219
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
【机器学习】无监督学习的概念,使用无监督学习发现数据的特点
4 b3 ^7 t9 e, j0 [# \. X: C2 p0 J X9 R/ x
到目前位置,我们主要把注意力集中在监督学习的问题上,数据集中的每个数据点都有一个已知的标签或者目标值。然而如果面对没有已知的输出结果,或者没有人监督学习算法,我们要怎么做。
" ?: p9 G3 B3 ^6 \. h/ K5 q+ S: h+ X. O. r$ F* J
这就是无监督学习 。' t4 v0 W, K- }. h Y, q. g
( ?6 n: E8 m- r1 N7 x在无监督、非监督学习中了,学习过程仅使用输入数据,没有更多的指导信息,要求从这些数据中提取知识。我们已经讨论了非监督学习众多形式的一种降维。另一个普及的领域就是聚类分析。他的目的是吧数据分为相似元素组成的不同区域中。8 t2 z* W! e( m% y: k. l
" ^ G* j7 i( S在本章中,我们想要理解不同的聚类算法如何从简单到,无标记的数据集中提取特征。这些结构特征,可以用于特征处理,图像处理,甚至是作为无监督学习任务的预处理步骤。
& i A/ r8 I& j- R- L, h/ g7 ^作为一个具体的例子,我们将对图像进行聚类,将色彩空间降到16位数。
% a2 C7 C0 Y7 o# W; `* e: h3 I3 x* v2 o+ G. e9 O
解决的问题
; b/ j9 b, i) W7 W% r8 X) \1.K-means聚类和期望最大化是什么?如何在opencv中实现这些算法。" P/ a$ x( y. J, E
2.如何在层次树中使用聚类算法。他带来的好处有哪些。
+ y- m: M( H, ~; ?3.如何使用无监督学习,进行预处理,图像处理,分类。
( }# F: Q) ~! `8 V6 {9 M' }
J! ^5 s6 N- x% q. @1 理解无监督学习
( ?* O1 O: x% P. E! \无监督学习可能有很多形式,但是他们的目标总是把原始数据转化为更加丰富,更加有意义的表示,这么做可以让人们更容易理解,也可以更方便的使用机器学习算法进行解析。; P* c; ~3 {# C% y' V
无监督学习的应用包括一下应用:
0 q1 c) D0 \- X' \2 c1降维:他接受一个许多特征的高维度数据表示,尝试对这些数据进行压缩,以使其主要特征,可以使用少量的携带高信息量的数据来表示。
2 V2 x+ i; O* C/ ]2因子分析:用于找到导致被观察的到的数据的隐含因素或者未观察到的方面。# n9 o3 ?1 S3 d9 L/ s$ `
3聚类分析:
# r R7 W1 x3 \8 T* Y B尝试把数据分成相似元素组成的不同组。& X5 J- Y& h$ k z
/ S0 C& Y6 C% s无监督学习主要的挑战就是,如何确定一个算法是否出色,或者学习到什么有用内容,通常评估一个无监督学习算法结果的唯一方式是手动检查,并确定结果是否有意义。
~) O; ~+ n+ N8 l* Q; }0 j8 f9 d% N& Y4 m! Z7 R5 m
话虽然如此,但是非监督学习,可以非常有,比如作为预处理或者特征提取的步骤。
2 V$ `# J+ W2 o
' K# O8 Q8 \/ F! u. C2理解K-means聚类
/ G6 a" r! v* K# y6 x" t/ {Opencv 提供最有用的聚类算法是k-means,因为它会从一个没有标记的多维度数据集中搜寻预设的K个聚类结果。
' U, N" j/ a- y. c2 o: v; V2 {5 }- d2 z
它通过两个简单的假设来完成最佳聚类了。: }; \+ S3 {: X7 T2 ]
1 每个聚类中心都是属于该类别的所有数据点的算术平均值
# o. x$ u# ]5 U+ X3 F, E- X+ w8 g2 聚类中的每一个点相对其他聚类中心,更靠近本类别的中心。! j8 W. e. d/ I- o ?3 ~6 Q
; `5 t; O. {! ~# e+ X3 e
2.1 实现第一个kmeans例子( y" D' Y& [6 Y' R) K
首先,生成一个包含四个不同点集合的数据集。为了强调这是一个非监督的方法,我门在可视化将忽略哪些标签。使用matplotlib进行可视化。
5 ?, C' [# q, `5 z) ^ L
2 [0 }4 }& ?0 a6 Qimport matplotlib.pyplot as plt
: L; L3 O& L& p7 Yimport pylab, H5 o7 {% _3 N! b( [3 i- Q. W
from sklearn.datasets._samples_generator import make_blobs
+ l# P1 Q$ a) m; z; m" z: J7 i3 s: Q( z3 q
plt.style.use('ggplot')
: E V7 s0 S/ t+ W6 J: X$ W/ \ [x,y=make_blobs(n_samples=300,centers=4,cluster_std=1.0,random_state=10)
, N+ w" a, F0 M* \! Xplt.scatter(x[:,0],x[:,1],s=100)" ~- v+ V' H9 M) J6 ~, c* Q
pylab.show()$ ~" N8 F& k7 i% `2 J9 V2 p2 m
0 H# A4 X4 z5 _: D
& x# Y) _2 J$ K* b5 H
1
+ h. x1 L$ l' D C" A* F23 ?& h+ T( N7 r' {/ i
3; q; F' w* B. N4 c) r( k+ s+ z
4# }/ {0 s; m4 i9 y! d; ?
52 r' O$ Z3 _4 e! J. H
61 v' `8 b a5 J: X3 N: j& F
7. ~0 `; H. f7 e, n% |# B
8* W5 u' e/ p9 C' Q! K( }
9
; q6 s2 p1 t3 t) k, K6 S" O4 ]10
2 t$ e4 l, ^ a7 A% |& Q! t- _% I* b, I2 E& `: m
我们创建一个四个不同区域的聚类,centers=4,一共300节点。* k5 X5 L: |2 M& Z$ m+ a
如上程序生成图像所示结果。! m* q+ G8 f4 b
尽管没有给数据分配目标标签,但直接使用肉眼还是可以看出来一共是四类。
$ e1 Y3 `/ {3 w0 K+ Rkmeans就可以通过算法办到,无需任何关于目标的标签或者潜在的数据分布的信息。
1 ?3 D1 {5 k4 l8 _% c |当然尽管,kmeans在opencv中是一个统计模型,不能调用api中的train和predict。相反,使用cv2.kmeans可以直接使用这个算法。。为了使用这个模型,我们需要指定一些参数,比如终止条件,和初始化标志。' F7 i Q: j8 [, O- _3 X
* r" M( F- u" j: S/ U- f- A3 }我们让算法误差小于1.0(cv2.TERM_CRITERIA_EPS),或者已经 执行了十次迭代(cv2.TERM_CITTERIA_MAX_ITER)时候终止。
! V. M) q/ v" V+ F' H( V# u
" W7 |7 a! v+ [" v1 o) m8 Y* ]# ^- d
1 e1 w& Z7 k+ B8 z [: Z* X, P( r
import matplotlib.pyplot as plt8 J3 r% Y" a8 t3 v! D# y! I9 D
import pylab+ J$ u& M9 B- w
from sklearn.datasets._samples_generator import make_blobs, e7 ^4 h3 m6 k
import cv2
8 f B$ d& O& f. U+ R9 }' S7 Rimport numpy as np
0 ]" p7 I4 q7 w4 K* p% e, }+ |0 F# H" q; X
2 O$ R d4 z* Bplt.style.use('ggplot')& k8 d9 o5 C$ c7 p
x,y=make_blobs(n_samples=300,centers=4,cluster_std=1.0,random_state=10)" P5 k' G& t/ U' G/ x
plt.scatter(x[:,0],x[:,1],s=100)
4 ^8 O# l; I; y0 C$ q5 X& i, e3 l+ ?/ b$ ]0 R x
: V7 y7 p8 @9 G+ Ecriteria=(cv2.TERM_CRITERIA_EPS+cv2.TERM_CRITERIA_MAX_ITER,10,1.0)- V: @+ r5 W, \; J
flags=cv2.KMEANS_RANDOM_CENTERS; E: C& z$ E" z! l
compactness,labels,centers=cv2.kmeans(x.astype(np.float32),4,None,criteria,10,flags)) u" U6 ?, H' L) w5 U
print(compactness)
2 m- e% V2 g4 N9 `5 N- j' f9 x# z$ t- X# I
plt.scatter(x[:,0],x[:,1],c=labels,s=50,cmap='viridis')! m. B3 ~$ o/ w \7 R Y
plt.scatter(centers[:,0],centers[:,1],c='black',s=200,alpha=0.5)2 b& e* A# u1 j) R ~
: }) y6 w. d4 o) I" v7 r1 vpylab.show()
' w o: q' G- X' g, p+ D0 H, u. }0 V5 f. M
& |! ^% w4 T& i9 N$ o, q
9 V# W4 Q* f( o5 u; E1 G6 d
' K2 I; P# P. l; d- w/ h* ~3 L9 w+ R+ s3 e5 g f0 {- u+ d9 w
7 c7 G1 G$ d. G& C8 B
0 H% U3 _" y7 p! Y% |
10 I* x- ^5 G [/ B ~" n
2( Q+ h. D5 k" h
3$ x$ B# @, r p! o: |# E) M/ Q
4
: @: m3 J5 n+ }' [) p- E$ l54 S. f, Y( N, e
6
0 S1 S/ F: J/ A7& s7 i1 G, U. s9 \, C
8! }# |6 C' B; A7 K" }
9+ D7 _1 j- \! |" `9 }# @4 j5 r# X: ^
10( `4 M, S0 s3 z- Q5 C6 z/ u4 H6 C
11
! e* A/ \0 W" j% n4 i125 y' z4 [1 ?& x" w
13
0 W- \! J( D# D9 c7 j' \14
/ H. B5 F, w( E5 u: Q! D* }15
9 q r6 i$ X8 e7 p, Z' e16& V; ]- x& d2 ^3 i( I; X0 X" B
17
7 v; |) h/ f! \5 |5 `18
! }+ C2 |0 ] S4 Q! b5 a N$ @# Y19
# @5 X& t$ c, J0 D1 k0 B20
) D3 h5 s1 V3 V. s* S' o- h21% F$ H) B: {6 m+ ?1 ?
22
( f" g8 M$ C8 ^: n. Z4 ]23
6 s7 f) a7 q+ Z$ N! c6 z3 v2 u24
$ J. @7 s# _$ q250 K: k) u/ X6 u
26: f& H. q' b) x+ |. U
上面程序结果可以产生图2的效果。2 ~, v0 k- H4 Z! A5 p2 P
/ U" F( ^2 v7 P% `. n) M6 X
print(compactness)这个变量,表示每个点到它聚类中心的距离平方和。较高紧凑都表明所有的点更靠近他们的聚类中心,较低 的紧凑度表明不同的聚类可能无法的很好区分。
- f. Y/ ^* t$ C( k, c+ R
. o7 l* }' h. W6 y; d2 ~# h当然,这个是非常依赖于x中的真实值。如果点与点之间最初的距离比较大,那我们就很难得到一个非常小的紧凑度。因此,把数据画出来,并按照聚类标签分配不同颜色,可以显示更多信息。
3 y3 k1 [6 `0 a5 ^1 t0 ^% r; P+ r9 J0 J
3理解kmeans
* R4 f. v$ z. ]' Q; _kmeans是聚类众多常见期望最大化中一个具体的例子。简单来说,算法处理的过程如下所示:
6 Z s) N* J4 c6 `4 x) D1.从一些随机的聚类中心开始
+ v5 ]; c2 g" z; m6 t% e- z/ I2.一种重复直到收敛
- x" h3 I t! k; W
; d+ D) u& W* }: Q: S$ z1 s: V4 C) k期望步骤:把所有的数据点分配到离他们最近的聚类中心。% R0 L9 G# G9 F8 v
最大化步骤:通过取出聚类中所有点的平均来更新聚类中心。* Z. s+ y3 L1 A7 _
3 H+ u1 @1 H9 O它涉及到一个定义聚类中心位置的适应性函数最大化的过程。对于kmeans最大化是计算一个聚类中所有数据点的算数平均得到。
6 c/ Y( @. K, d x+ C$ t————————————————( A. C9 Y( z" ~4 V. F
版权声明:本文为CSDN博主「紫钺-高山仰止」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
% U' E9 X. z! J原文链接:https://blog.csdn.net/qq_43158059/article/details/126789000$ Z$ h/ ~) Q0 k/ Y* K! U/ r
0 ~. w% O; ]8 n' k- M) e
( D' K- g5 S1 C7 j$ ]4 ^/ a" r |
zan
|