- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 555469 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 172014
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 18
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
4 W/ m/ _# u: L& s8 x# }0 g! V
基于 Spark 的机器学习应用框架研究与实现
% t9 h4 C" R2 y5 B# [$ n8 V7 P( B/ B) X8 ]4 g
' j0 a" J7 R( E' }# ?3 ~8 X, L, D
聚类分析和分类分析是机器学习的重要领域,K-means 算法和随机$ u& y7 U8 ~8 P& T
森林算法分别是聚类分析和分类分析中最常用的算法之一。然而,; a8 E0 U/ F' y, B; ^+ d' y R
K-means 算法和随机森林算法都存在一些限制和缺点。K-means 算法中
# q! V0 _7 k( q# N的群组数目 K 值需要使用者预先设定,这对使用者提出了较高的要求,1 Y2 A0 C% c6 `
经验不足的使用者设定的 K 值的准确性也存在一定的问题;随机森林算1 J0 r: a' j& |: `
法进行分类决策时,无法区别对待每一棵决策树,导致准确性差的决策
% F8 y& ]# j7 e' \' H: U, n树会影响算法整体的准确性。在实际应用中,待分析的数据集存在各种
+ e' h2 y% y) ?% R各样的问题。包含较多孤立点的数据集会增加 K-means 算法的迭代次数,
0 q+ a( {5 }: C3 n2 J提高算法的复杂度,降低算法的准确性;对于包含噪声特征和冗余特征4 Q5 B+ W% r5 A. m8 |: y
的数据集,随机森林算法的准确性会受到影响,错误率会提高。上述这# h( N! L5 Z6 n. g9 z
些问题提高了用户使用 K-means 算法和随机森林算法的难度。, \# g, R+ v/ c5 Q0 y2 L
另一方面,基于分布式计算的机器学习框架得到了广泛应用。然而,
9 K; X/ I$ e4 _+ ^8 F ~8 |现有的机器学习框架受限于机器学习算法自身的限制和缺点,要求用户$ E5 G& p z! M
进行数据挖掘和分析时,需要掌握足够的机器学习算法知识,导致这些2 l R0 s0 s4 Q) z
机器学习框架的应用门槛较高。" m$ x$ L M( v0 _) H2 n
针对上述问题,本文以实验室承担的某省交通物流云计算平台建设* n; `% Q; P$ |' u7 [& o9 o6 b0 W
项目为背景,对聚类分析中的 K-means 算法和分类分析中的随机森林算7 J# x$ K) V) q' ~7 K5 ?# A" i
法以及这两种算法存在的限制和缺点进行了分析,提出了相应的改进算
$ @! D# l8 Y) M# I( b法,设计并实现了一套基于 Spark 的机器学习应用框架。该框架具有自
- G$ [! Y" o1 r' n适应的数据预处理、算法调优和参数选择,用户无需关注机器学习算法1 T$ [' a! N0 w7 u; ?$ D
的底层细节等特点。最后,本文通过交通物流领域的应用例子对该框架
+ a. R7 ^$ P2 H5 t' e+ kI上海交通大学硕士学位论文 摘要2 h/ v& N3 |8 W9 r3 I( `* g; d- C
进行了验证。- [! G# [! J) G# ^6 H1 c( i
与其他同类系统相比,本文工作具有以下特点:
+ e H3 w6 V3 _$ Y# r1) 针对 K-means 算法存在的特征权重不一致、孤立点干扰和群组数
- f( f! ~! Y. t: q. }目 K 值设定等问题,本文提出了一种改进的自适应 K-means 算法! E4 r5 ^+ c( P; ~2 H
(Adaptive K-means,简称 AKM)。实验结果表明,AKM 算法具有对待分
; R; K8 h% I/ ^7 e Y4 i: I析数据集进行规范化处理,对孤立点进行检测和删除,自动化求解群组
3 t! n0 X, E$ B数目 K 值等特点。
2 p1 }$ p" M4 o/ d" Z7 @2) 针对随机森林算法存在的噪声特征干扰、冗余特征干扰和分类决" I2 |6 U9 Y3 M1 r4 Q" I2 [
策投票策略等问题,本文提出了一种改进的自适应随机森林算法. Z# L% C2 y3 ]( o* a1 h
(Adaptive Random Forests,简称 ARF)。实验结果表明,ARF 算法具有删
/ l$ g7 _. Q& i2 L6 n) v除噪声特征和冗余特征,根据具体的问题选择合适的分类决策投票策略1 `" W1 H& v) A4 ?* {! Z" k/ @
等特点。
Y+ q" D* d0 h3) 在 AKM 算法和 ARF 算法的基础上,设计实现了一套基于 Spark
% c$ W }9 L5 o4 T, @4 `8 ^的机器学习应用框架 AMLF(Adaptive Machine Learning Framework on # M% m& F$ O1 L# r2 t
Spark)。AMLF 框架具有向用户提供统一的数据访问接口、机器学习模
9 `3 C* [" }2 V型的导入导出、统计和反馈机器学习模型信息等功能。应用情况表明,2 Q {1 m3 w& w( q
用户使用 AMLF 框架进行机器学习应用开发时,无需关注机器学习算法
4 ]& \: X) @7 Z, k的底层细节,降低了使用门槛。
3 e. L0 Q7 J. l
+ q6 p# H) u5 \. N9 q9 f
' N* t% f9 L2 f; W% A, s2 `6 Q Q |
zan
|