QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2531|回复: 0
打印 上一主题 下一主题

分类与聚类的区别

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2018-10-31 11:00 |只看该作者 |正序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    分类与聚类的区别& _$ @! M6 d5 ]
    Classification (分类)—— Supervised Learning (监督学习)/ c  R3 L$ ~+ b  M# X( h+ P! G
    1.定义
    ! T1 l) l2 ]# f9 ?$ m$ t利用分类技术可以从数据集中提取描述数据类的一个函数或模型(也常称为分类器classifier),并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点,分类技术是监督学习,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。所谓分类,简单来说,就是根据数据的特征或属性,划分到已有的类别中。
    # C* z7 X2 X6 p# t+ ]+ @/ A& ]* \: M- H( T$ K7 O- L, w" }+ m
    分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。
    2 g  E+ v4 E& \# ~' }7 l2 G7 j8 h: w8 f# l
    2.常用的分类算法包括
    ; c% v; y+ @5 D% {/ @! y2 r∙∙ 决策树分类法 ( ^9 ^- ]* ~. b1 d  O
    ∙∙ 基于规则的分类器
    2 _  F0 Z% ^1 z8 P1 [∙∙ 朴素的贝叶斯分类算法(native Bayesian classifier)
    ; q9 l# M/ q) n) X. N∙∙ 基于支持向量机(SVM)的分类器
    4 f8 @1 z. t5 S5 @5 y( \7 L+ I& X6 A∙∙ 神经网络法 5 G, C  D; a" b) c
    ∙∙ k-最近邻法(k-nearest neighbor,kNN)
    , ?" D. U% R( H- L" G, a∙∙ 模糊分类法
    6 h6 a; h5 j1 K) ~- `! @+ E4 f. E6 f  B* }* l3 l
    Clustering(聚类)——Unsupervised Learning (无监督学习); M% U  c: b4 X( }3 [( c
    1.定义
    3 W$ I1 ?1 p+ |5 _4 c4 ]7 r% q0 E简单地说就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们的目标只是把相似的东西聚到一起。聚类分析就是将数据划分成有意义或有用的组(簇)。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,即unsupervised learning (无监督学习)。聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的。
    4 K6 E, i1 h7 R5 u7 Z- t: T) _3 g4 I
    5 ]- e" t: a( r4 r) {2.什么是一个好的聚类方法?2 _* S( f4 A" `7 s0 t/ f" r
    ∙∙ 一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点: 高的簇内相似性、低的簇间相似性 ! ^- h0 B5 `; S& X
    ∙∙ 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现; 3 z# I% s# ?/ l; g! G
    ∙∙ 聚类方法的好坏还取决于该方法是否能发现某些还是所有的隐含模式;
    8 m! I! e7 Z- m2 p
    : ]; m, x: ^" W6 w- h5 l% |3 q: d3.不同的聚类类型
    * W" [" `% h: u5 k$ V∙∙ 划分聚类(Partitional Clustering):划分聚类简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集。
    2 }9 v+ Y5 ]: N( B2 s9 r∙∙ 层次聚类(Hierarchical Clustering):层次聚类是嵌套簇的集族,组织成一棵树。
    3 a7 t* A0 K  ]! l/ ]& z5 B∙∙ 互斥聚类(Exclusive Clustering):每个对象都指派到单个簇。
    4 _& X2 D7 R5 W' U) _1 Z8 X( B% I∙∙ 重叠的(Overlapping)或非互斥的(Non-exclusive)聚类:聚类用来反映一个对象.同时属于多个组(类)这一事实。例如:在大学里,一个人可能既是学生,又是雇员 : t9 n" b) w0 W- f% Z6 o# k- j
    ∙∙ 模糊聚类(Fuzzy Clustering):每个对象以一个0(绝对不属于)和1(绝对属于)之间的隶属权值属于每个簇。换言之,簇被视为模糊集。
    7 Y# Y. A. @7 A; J∙∙ 完全聚类(Complete Clustering):完全聚类将每个对象指派到一个簇。
    5 P8 x: s; {3 U" k4 J7 [∙∙ 部分聚类(Partial Clustering):部分聚类中数据集某些对象可能不属于明确定义的组。如:一些对象可能是离群点、噪声。3 R6 e1 ^' O. h+ w
    2 |* W! C: P5 F
    4.不同的簇类型  _% z" X/ n+ d) r  E
    ∙∙ 明显分离的(Well-Separated):每个点到同簇中任一点的距离比到不同簇中所有点的距离更近。
    # O' i( A  i) X1 Y% u8 M∙∙ 基于原型的:每个对象到定义该簇的原型的距离比到其他簇的原型的距离更近。对于具有连续属性的数据,簇的原型通常是质心,即簇中所有点的平均值。当质心没有意义时,原型通常是中心点,即簇中最有代表性的点。基于中心的(Center-Based)的簇:每个点到其簇中心的距离比到任何其他簇中心的距离更近。 - c- r* s$ \  I
    ∙∙ 基于图的:如果数据用图表示,其中节点是对象,而边代表对象之间的联系。簇可以定义为连通分支(Connected Component):互相连通但不与组外对象连通的对象组。基于近邻的(Contiguity-Based)簇:其中两个对象是相连的,仅当它们的距离在指定的范围内。这意味着,每个对象到该簇某个对象的距离比到不同簇中任意点的距离更近。
    ' ?/ C2 n2 b* `8 ]' q( H% x, t/ r∙∙ 基于密度的(Density-Based):簇是对象的稠密区域,被低密度的区域环绕。 9 ~2 H7 c& ^/ k8 u; o5 _
    ∙∙ (共同性质的)概念簇(Conceptual Clusters):可以把簇定义为有某种共同性质的对象的集合。此情况下,聚类算法都需要非常具体的簇概念来成功检测这些簇,发现这些簇的过程称作概念聚类。然而,过于复杂的簇概念将涉及模式识别。
    & G( `/ N+ X* z1 n" a
    / y. \) A5 i5 K. ~
    0 M, Z( W4 g' [: q% c8 |, Z  y
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-14 03:29 , Processed in 0.550890 second(s), 52 queries .

    回顶部