- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563319 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174219
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
数学建模————统计问题之分类/聚类(二)( k% g6 w: }8 ~. E$ j
首先要弄明白分类和聚类的区别:
- T" N% m* A. D. I6 z* y. @9 P 分类(判别):数据包含数据特征部分和样本标签部分,分类的目的就是判别新的数据特征到其应有的样本标签(类别)中。
5 ?# H0 J$ v' \8 i1 j/ [% Y. E9 S+ ~3 D4 K* t& o2 K
比方说,现在告诉大家一个教室里面其中一半人每个人的性别(男女),现在需要大家将另一半人中每个人的性别判断出来,因此大家首先要做的的找到区分性别的特征,然后应用到另一半人身上,将其归类。" i/ @' k! u. ^ f, M
$ Y$ Q9 Y* f) D% s1 |# ~- [' h
聚类:数据中只有数据特征,需要根据某一标准将其划分到不同的类中。
. a$ @9 R2 F6 Y; P- g: S2 I: f* n* l* t+ o
同样的,现在一个教室里面所有人都没什么标签,现在需要你将整个教室的人分为两类,那么你可以从性别、体型、兴趣爱好、位置等等角度去分析。
* J' t" O5 B: [1 T" b7 O' S/ _ x' o
* i% w% i F7 f) k% S( k- A: I; H/ v5 |' s7 P/ c) T' A3 e* C+ u
8 C* {* c% ?: G) x' p o4 x" t 可以看到,分类其实跟预测差不多,只不过输出是一维的,并且还是整数,所以可以用预测中的机器学习方法来解决分类问题。而聚类则不同,一般来说,聚类需要定义一种相似度或者距离,从而将相似或者距离近的样本归为一类,常见的有:kmeans算法、分层聚类、谱聚类等。: z& E" a% H; D
/ m- U+ v. b i3 E3 R M9 f0 |
对于聚类来说,除了相似性的度量之外,还有一个比较重要的是终止条件,即需要聚成多少类,一般来说,基本都是在聚类之前就设定好需要聚成多少类,其中kmeans就是先设定几个类中心,然后将与类中心相近的数据归到那一类,然后不断更新类中心,直至所有数据聚类完毕,而分层聚类则是相反,先将所有数据各自为一类,然后将相似的类合并,直至达到k类为止...
4 V- B; s* K Q* q 当然,也可以将终止条件改为当最小的距离大于某一阈值时,不再合并类(适用于分层聚类),除了这些算法,还有机器学习方法,如:自组织竞争网络(SOM),可以自行了解。
/ R3 Y; g" Y# K4 s) t. g7 k3 }2 J! x+ X
接下来我们以分层聚类为例进行讲解,这一部分例子来自于《数学建模算法与应用》,用以辅助说明。通常来说,分层聚类有两类,一类是从上到下的分裂(即现将所有个体看做一个类,然后利用规则一步步的分裂成多个类),另一类是从下到上的合并(即先将每个个体看作一个类,然后依据规则一步步合并为一个类)。因此分层聚类最终可以得到一个金字塔结构,每一层都有不同的类别数量,我们可以选取需要的类别数量。$ i4 r' K$ o" o& {6 l$ w& C. g# s
--------------------- 8 G/ d! p! z" O0 B
例子:设有5个销售员w1,w2,w3,w4,w5,他们的销售业绩由二维变量(v1,v2)描述:+ r4 n: r w! N. G) }+ g3 e8 l/ Z
/ s8 `4 t) k( x8 q1 ^- I
. y% ^' O7 }7 t1 u
4 G: c5 @# m, N) h 将5个人的两种数据看作他们的指标,首先,我们简单定义任意两组数据的距离为:
" n! `4 R/ @# i2 r. ~, w. L0 O1 Y- _0 e: }3 H- i
" `9 Z4 c, e0 A, ?( [( m6 F
. b1 W a8 W5 n4 m7 P) W
7 m' R5 ]! J* y+ S3 T3 V
" D: w% n" q6 j* X2 ~1 q n
2 F* t. [! P, ] R, u
7 O a! G# d: N7 g 与此相对应的,当有样本归为一类后,我们要计算类间距离就又得需要一个计算方式,我们定义任意两类间的距离为两类中每组数据距离的最小值:) G4 X" l6 m4 ~5 P1 R0 B
! f4 ^' b2 e6 q5 H# p. G3 u
4 G3 r" m' B$ K% W) G' { Y5 l Y, D# r4 x1 v7 Z
c( c7 Y! \2 G& s, I
8 I' M) K4 Y3 J! @* C' A% B( U
" r! Q h! v( R }$ j% c2 l- I) S
. ~9 u3 I3 w) I7 V8 f7 i 因此,可以得到任意两个销售员的数据距离矩阵:
- k5 t: P6 b- K6 [4 ?4 f
% s6 E) N; r W8 e5 |( s% a3 v% \. O5 f% r
( {* F9 _2 C$ [% Q/ H% mStep1 首先,最相近的两组样本是w1和w2,他们的距离为1,所以先将其聚为一类;8 a0 }/ n5 N) Y/ Q5 p7 E. E
# |$ O# A3 q( f7 N$ w }+ oStep2 然后,剩下的样本为{w1,w2},w3,w4,w5,我们发现除了距离1之外,最相似的是 w3,w4,他们的距离为2,所以将其聚为一类;
8 T& f. c6 M( F, j: ?% u. tStep3 然后,剩下的样本为{w1,w2},{w3,w4},w5,我们发现除了距离1,2之外,最相似的 是{w1,w2}和{w3,w4},他们的距离以 w2和w3的距离为准,距离为3,所以将这两类聚为一类; / D% g1 G: q( P7 o5 y) t
Step4 最后,剩下的样本为{w1,w2,w3,w4},w5,只剩最后两类了,所以最后一类为 {w1,w2,w3,w4,w5},类间距以w3/w4与w5的距离4为准。
w8 {9 Y/ y1 J- e, s. n
# U# V+ Q% ~; D* C/ b2 {6 {" n( J7 B 代码如下:%% 编程实现clc;clear;close all& ~; w1 y6 X7 a$ N1 Y
data = [1,0;1,1;3,2;4,3;2,5];%原始数据' G0 L0 ?. S3 g) I+ j
[m, ~] = size(data);: t9 s& g$ S9 S3 b5 Z+ X4 P Y
d = mandist(data');%求任意两组数据的距离8 M$ G: \6 g4 K* Z* O
d = tril(d);%取下三角区域数据/ u/ R7 F: D1 V3 v0 C' u7 M
nd = nonzeros(d);%去除0元素2 c7 U* @" R3 M! n+ {7 k P0 b
nd = unique(nd);%去除重复元素
( l U8 u8 s9 a) ?1 P for i = 1 : m-1) z0 j8 n$ d7 x; N- C2 e, w
nd_min = min(nd);# u$ d1 F! c P9 m& O: i
[row, col] = find(d == nd_min);4 Q! r, i1 a- p
label = union(row,col);%提取相似的类别8 {2 d) g( x1 i+ x1 I+ N
label = reshape(label, 1, length(label));%将类别标签转化成行向量0 _, U) w/ p4 ~1 V# H- ~8 w
disp(['第',num2str(i),'次找到的相似样本为:',num2str(label)]);% t# a7 W/ Z3 z/ G
nd(nd == nd_min) = [];%删除已归类的距离
& T! Z. \7 w# o9 |3 [4 r$ ~ if isempty(nd)%如果没有可分的类就停止' ^# w/ S7 q! V5 ^# [' y1 Y6 e
break
7 c3 M2 m7 n6 l end
0 u( L% k4 D" W4 j: T+ E* D b5 h8 [ end
$ S% H3 n' ^/ Z# u F$ Z# ~/ r%% 工具箱实现
" } y2 b* h, w) Bclc;clear;close all
4 y5 a: T% i: Z8 a) L8 Xdata = [1,0;1,1;3,2;4,3;2,5];%原始数据0 }+ ]7 e# q$ V4 v" f o
y = pdist(data,'cityblock');%计算任意两样本的绝对值距离
) a7 d! x5 a Q- tyc = squareform(y);%将距离转化成对称方阵
( Q4 b4 j+ |6 c: Yz = linkage(y);%生成聚类树
: T8 m3 i( {( W0 r9 K. ^[h, t] = dendrogram(z);%画出聚类树
. ]! C K J8 V8 n+ jn = 3;%最终需要聚成多少类
" b. Q* E# y+ t! z, \7 U7 NT = cluster(z, 'maxclust', n);%分析当分n类时,个样本的标签9 r: f* ~4 M) X
for i = 1 : n+ u- C- e( {( T( R' h( @" `$ Y
label = find(T == i);
; [! A* q1 b9 [& k! L label = reshape(label, 1, length(label));; g* }9 H6 w* Z$ \) Y: C7 _
disp(['第',num2str(i),'类有:',num2str(label)]);! ~" y' o5 x" F, U/ y( w7 B' }
end
; K- j6 U' W! i( k# a 结果如下:
+ w/ \8 N2 K$ M$ q6 w$ r3 n , [7 b; c9 h2 y! _ n1 X ~$ ] i% f! Z
---------------------
6 ]% c. s0 U ^+ B' N/ v' j8 C! b+ f, {( F# ]3 g! R; s4 l
( {' r' W& J: V/ @6 s' N
' W0 M4 R% g. w7 k% P2 h3 o: X: b
" |% e) P1 ?4 `( z% B8 O' I9 L3 |. d) ?! Y A- d" z7 C
|
zan
|