|
聚类分析 聚类分析的定义 聚类分析又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即使在没有先验知识的情况下进行的。 聚类分析的主要应用 1、在商业上 聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。 2、在生物上 聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识 。 3、在地理上 聚类能够帮助在地球中被观察的数据库商趋于的相似性。 4、 在保险行业上 聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组。 5、在因特网应用上 聚类分析被用来在网上进行文档归类来修复信息。 6、在电子商务上 聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。 聚类分析的特征 聚类分析时根据事物本身的特性研究个体的一种方法,目的在于将相似的事物归类。它的原则是同一类中的个体有较大的相似性,不同类的个体差异性很大。这种方法有三个特征: (1)适用于没有先验知识的分类。如果没有这些事先的经验或一些国际标准、国内标准、行业标准,分类便会显得随意和主观。这时只要设定比较完善的分类变量,就可以通过聚类分析法得到较为合理的类别。 (2)可以处理多个变量决定的分类。例如,要根据消费者购买量的大小进行分类比较容易,但如果在进行数据挖掘时,要求根据消费者的购买量、家庭收入、家庭支出、年龄等多个指标进行分类通常比较复杂,而聚类分析法可以解决这类问题。 (3)聚类分析法是一种探索性分析方法,能够分析事物的内在特点和规律,并根据相似性原则对事物进行分组,是数据挖掘中常用的一种技术。 聚类分析的优缺点 1、优点:聚类分析模型的优点就是直观,结论形式简明。 2、缺点 (1)在样本量较大时,要获得聚类结论有一定困难。由于相似系数是很据实验对象的反映来建立反映实验对象间内在联系的指标,而实践中有时尽管从实验对象反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,要根据专业知识来分析聚类分析的结果。 (2)聚类结果要明确就需分离度很好的数据。几乎所有现存的算法都是从相互区别的不重叠的类数据中产生同样的聚类。但是,如果类是扩散且互相渗透,那么每种算法的结果将有所不同。结果,每种算法界定的边界不清,每种聚类算法得到各自的最适结果,每个数据部分将产生单一的信息。为解释来自任一算法使同样数据产生不同结果,必须注意判断不同的方式。 主成分分析主成分分析的简介: 在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的 相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。 主成分分析的原理 设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
主成分分析的案例 例1:评价影视作品 例2:选择旅游地 例3:2002年全国大学生数学建模竞赛B题:层次分析法在彩票抽奖
方案选择中的应用 主成分分析的应用 应用领域:经济计划和管理,能源政策和分配,人才选拔和评价,生产决策,交通运输,科研选题,产业结构,教育,医疗,环境,军事等。 处理问题类型:决策、评价、分析、预测等。 建立层次分析结构模型是关键一步,要有主要决策层参与。 构造成对比较阵是数量依据,应由经验丰富、判断力强的专家给出。 主成分分析属于因子分析的一种,利用主成分分析得到的成分之间不相关,将数据标准化之后,进行主成分分析,利用得到的成分进行多元线性回归分析,可以很好的避免由于数据问题,造成多元回归分析结果不合理。 |