- 在线时间
- 130 小时
- 最后登录
- 2025-7-19
- 注册时间
- 2020-11-26
- 听众数
- 3
- 收听数
- 0
- 能力
- 0 分
- 体力
- 16059 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 5027
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 419
- 主题
- 395
- 精华
- 0
- 分享
- 0
- 好友
- 0
TA的每日心情 | 衰 2021-3-28 15:16 |
|---|
签到天数: 25 天 [LV.4]偶尔看看III
 |
基于Spark的主动重叠K-means聚类算法8 w- S: q2 U0 z% q/ E
* b, Y+ `7 `/ E+ n0 f& N
别大规模数据的潜在模式.但其存在两个问题:多次迭代Master和Worker节点间数据交换,导致算法运行效率低;对初始聚类中心敏感,导致聚类结果不稳定且收敛速度慢.为提高算法运行效率和结果稳定性,提出了一种主动重叠K-means聚类算法.其在各个分区上执行重叠K-mean、算法获得局部聚类中心,将结果汇总回收到Mastc:节点,在Mastc:节点运行重叠K-mean、算法聚合所有聚类中心,作为最终聚类中心;同时采用并行化主动选择策略获得更优的初始簇中心,提高算法准确性、收敛速度.实验结果表明,改进后的主动重叠聚类算法提高了算法准确性,降低了算法运行时间.
L( e0 B: B1 g2 L/ ~5 u* X5 C8 Y& q" h3 ]3 A6 k" \
关键词:Spark框架;主动学习;重叠聚类;并行计算
, o" S3 r5 V7 a+ d( A3 W, J7 s
5 {3 j2 m5 _$ e% r8 _) i+ K |
zan
|