QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2004|回复: 0
打印 上一主题 下一主题

[建模教程] 数学建模————统计问题之分类/聚类(二)

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-4-1 16:04 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    数学建模————统计问题之分类/聚类(二)( k% g6 w: }8 ~. E$ j
      首先要弄明白分类和聚类的区别:
    - T" N% m* A. D. I6 z* y. @9 P     分类(判别):数据包含数据特征部分和样本标签部分,分类的目的就是判别新的数据特征到其应有的样本标签(类别)中。
    5 ?# H0 J$ v' \8 i1 j/ [% Y. E9 S+ ~3 D4 K* t& o2 K
          比方说,现在告诉大家一个教室里面其中一半人每个人的性别(男女),现在需要大家将另一半人中每个人的性别判断出来,因此大家首先要做的的找到区分性别的特征,然后应用到另一半人身上,将其归类。" i/ @' k! u. ^  f, M
    $ Y$ Q9 Y* f) D% s1 |# ~- [' h
         聚类:数据中只有数据特征,需要根据某一标准将其划分到不同的类中。
    . a$ @9 R2 F6 Y; P- g: S2 I: f* n* l* t+ o
         同样的,现在一个教室里面所有人都没什么标签,现在需要你将整个教室的人分为两类,那么你可以从性别、体型、兴趣爱好、位置等等角度去分析。
    * J' t" O5 B: [1 T" b7 O' S/ _  x' o
    * i% w% i  F7 f) k% S( k- A: I; H/ v5 |' s7 P/ c) T' A3 e* C+ u

    8 C* {* c% ?: G) x' p  o4 x" t     可以看到,分类其实跟预测差不多,只不过输出是一维的,并且还是整数,所以可以用预测中的机器学习方法来解决分类问题。而聚类则不同,一般来说,聚类需要定义一种相似度或者距离,从而将相似或者距离近的样本归为一类,常见的有:kmeans算法、分层聚类、谱聚类等。: z& E" a% H; D
    / m- U+ v. b  i3 E3 R  M9 f0 |
         对于聚类来说,除了相似性的度量之外,还有一个比较重要的是终止条件,即需要聚成多少类,一般来说,基本都是在聚类之前就设定好需要聚成多少类,其中kmeans就是先设定几个类中心,然后将与类中心相近的数据归到那一类,然后不断更新类中心,直至所有数据聚类完毕,而分层聚类则是相反,先将所有数据各自为一类,然后将相似的类合并,直至达到k类为止...
    4 V- B; s* K  Q* q      当然,也可以将终止条件改为当最小的距离大于某一阈值时,不再合并类(适用于分层聚类),除了这些算法,还有机器学习方法,如:自组织竞争网络(SOM),可以自行了解。
    / R3 Y; g" Y# K4 s) t. g7 k3 }2 J! x+ X
           接下来我们以分层聚类为例进行讲解,这一部分例子来自于《数学建模算法与应用》,用以辅助说明。通常来说,分层聚类有两类,一类是从上到下的分裂(即现将所有个体看做一个类,然后利用规则一步步的分裂成多个类),另一类是从下到上的合并(即先将每个个体看作一个类,然后依据规则一步步合并为一个类)。因此分层聚类最终可以得到一个金字塔结构,每一层都有不同的类别数量,我们可以选取需要的类别数量。$ i4 r' K$ o" o& {6 l$ w& C. g# s
    --------------------- 8 G/ d! p! z" O0 B
         例子:设有5个销售员w1,w2,w3,w4,w5,他们的销售业绩由二维变量(v1,v2)描述:+ r4 n: r  w! N. G) }+ g3 e8 l/ Z
    / s8 `4 t) k( x8 q1 ^- I
    . y% ^' O7 }7 t1 u

    4 G: c5 @# m, N) h     将5个人的两种数据看作他们的指标,首先,我们简单定义任意两组数据的距离为:
    " n! `4 R/ @# i2 r. ~, w. L0 O1 Y- _0 e: }3 H- i

    " `9 Z4 c, e0 A, ?( [( m6 F
    . b1 W  a8 W5 n4 m7 P) W
    7 m' R5 ]! J* y+ S3 T3 V
    " D: w% n" q6 j* X2 ~1 q  n
    2 F* t. [! P, ]  R, u
    7 O  a! G# d: N7 g     与此相对应的,当有样本归为一类后,我们要计算类间距离就又得需要一个计算方式,我们定义任意两类间的距离为两类中每组数据距离的最小值:) G4 X" l6 m4 ~5 P1 R0 B

    ! f4 ^' b2 e6 q5 H# p. G3 u
    4 G3 r" m' B$ K% W) G' {  Y5 l  Y, D# r4 x1 v7 Z

      c( c7 Y! \2 G& s, I
    8 I' M) K4 Y3 J! @* C' A% B( U
    " r! Q  h! v( R  }$ j% c2 l- I) S
    . ~9 u3 I3 w) I7 V8 f7 i     因此,可以得到任意两个销售员的数据距离矩阵:
    - k5 t: P6 b- K6 [4 ?4 f
    % s6 E) N; r  W8 e5 |( s% a3 v% \. O5 f% r

    ( {* F9 _2 C$ [% Q/ H% mStep1 首先,最相近的两组样本是w1和w2,他们的距离为1,所以先将其聚为一类;8 a0 }/ n5 N) Y/ Q5 p7 E. E

    # |$ O# A3 q( f7 N$ w  }+ oStep2 然后,剩下的样本为{w1,w2},w3,w4,w5,我们发现除了距离1之外,最相似的是       w3,w4,他们的距离为2,所以将其聚为一类;
    8 T& f. c6 M( F, j: ?% u. tStep3 然后,剩下的样本为{w1,w2},{w3,w4},w5,我们发现除了距离1,2之外,最相似的   是{w1,w2}和{w3,w4},他们的距离以 w2和w3的距离为准,距离为3,所以将这两类聚为一类; / D% g1 G: q( P7 o5 y) t
    Step4 最后,剩下的样本为{w1,w2,w3,w4},w5,只剩最后两类了,所以最后一类为   {w1,w2,w3,w4,w5},类间距以w3/w4与w5的距离4为准。
      w8 {9 Y/ y1 J- e, s. n
    # U# V+ Q% ~; D* C/ b2 {6 {" n( J7 B   代码如下:%% 编程实现clc;clear;close all& ~; w1 y6 X7 a$ N1 Y
    data = [1,0;1,1;3,2;4,3;2,5];%原始数据' G0 L0 ?. S3 g) I+ j
    [m, ~] = size(data);: t9 s& g$ S9 S3 b5 Z+ X4 P  Y
    d = mandist(data');%求任意两组数据的距离8 M$ G: \6 g4 K* Z* O
    d = tril(d);%取下三角区域数据/ u/ R7 F: D1 V3 v0 C' u7 M
    nd = nonzeros(d);%去除0元素2 c7 U* @" R3 M! n+ {7 k  P0 b
    nd = unique(nd);%去除重复元素
    ( l  U8 u8 s9 a) ?1 P for i = 1 : m-1) z0 j8 n$ d7 x; N- C2 e, w
         nd_min = min(nd);# u$ d1 F! c  P9 m& O: i
         [row, col] = find(d == nd_min);4 Q! r, i1 a- p
         label = union(row,col);%提取相似的类别8 {2 d) g( x1 i+ x1 I+ N
         label = reshape(label, 1, length(label));%将类别标签转化成行向量0 _, U) w/ p4 ~1 V# H- ~8 w
         disp(['第',num2str(i),'次找到的相似样本为:',num2str(label)]);% t# a7 W/ Z3 z/ G
         nd(nd == nd_min) = [];%删除已归类的距离
    & T! Z. \7 w# o9 |3 [4 r$ ~     if isempty(nd)%如果没有可分的类就停止' ^# w/ S7 q! V5 ^# [' y1 Y6 e
             break
    7 c3 M2 m7 n6 l     end
    0 u( L% k4 D" W4 j: T+ E* D  b5 h8 [ end
    $ S% H3 n' ^/ Z# u  F$ Z# ~/ r%% 工具箱实现
    " }  y2 b* h, w) Bclc;clear;close all
    4 y5 a: T% i: Z8 a) L8 Xdata = [1,0;1,1;3,2;4,3;2,5];%原始数据0 }+ ]7 e# q$ V4 v" f  o
    y = pdist(data,'cityblock');%计算任意两样本的绝对值距离
    ) a7 d! x5 a  Q- tyc = squareform(y);%将距离转化成对称方阵
    ( Q4 b4 j+ |6 c: Yz = linkage(y);%生成聚类树
    : T8 m3 i( {( W0 r9 K. ^[h, t] = dendrogram(z);%画出聚类树
    . ]! C  K  J8 V8 n+ jn = 3;%最终需要聚成多少类
    " b. Q* E# y+ t! z, \7 U7 NT = cluster(z, 'maxclust', n);%分析当分n类时,个样本的标签9 r: f* ~4 M) X
    for i = 1 : n+ u- C- e( {( T( R' h( @" `$ Y
        label = find(T == i);
    ; [! A* q1 b9 [& k! L    label = reshape(label, 1, length(label));; g* }9 H6 w* Z$ \) Y: C7 _
        disp(['第',num2str(i),'类有:',num2str(label)]);! ~" y' o5 x" F, U/ y( w7 B' }
    end
    ; K- j6 U' W! i( k# a    结果如下:
    + w/ \8 N2 K$ M$ q6 w$ r3 n, [7 b; c9 h2 y! _  n1 X  ~$ ]  i% f! Z
    ---------------------
    6 ]% c. s0 U  ^+ B' N/ v' j8 C! b+ f, {( F# ]3 g! R; s4 l
    ( {' r' W& J: V/ @6 s' N
    ' W0 M4 R% g. w7 k% P2 h3 o: X: b

    " |% e) P1 ?4 `( z% B8 O' I9 L3 |. d) ?! Y  A- d" z7 C
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-13 18:40 , Processed in 0.408209 second(s), 51 queries .

    回顶部