[其他资源] 基于Spark的主动重叠K-means聚类算法

[复制链接]

字体大小: 正常放大

雩风三日

395 主题	3 听众	5027 积分

TA的每日心情

	衰 2021-3-28 15:16

签到天数: 25 天

[LV.4]偶尔看看III

电梯直达

1^#

发表于 2021-1-28 17:19 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

基于Spark的主动重叠K-means聚类算法

别大规模数据的潜在模式.但其存在两个问题:多次迭代Master和Worker节点间数据交换，导致算法运行效率低;对初始聚类中心敏感，导致聚类结果不稳定且收敛速度慢.为提高算法运行效率和结果稳定性，提出了一种主动重叠K-means聚类算法.其在各个分区上执行重叠K-mean、算法获得局部聚类中心，将结果汇总回收到Mastc:节点，在Mastc:节点运行重叠K-mean、算法聚合所有聚类中心，作为最终聚类中心;同时采用并行化主动选择策略获得更优的初始簇中心，提高算法准确性、收敛速度.实验结果表明，改进后的主动重叠聚类算法提高了算法准确性，降低了算法运行时间.

关键词:Spark框架;主动学习;重叠聚类;并行计算