数学建模社区-数学中国
标题:
基于 Spark 的机器学习应用框架研究与实现
[打印本页]
作者:
杨利霞
时间:
2020-11-20 15:08
标题:
基于 Spark 的机器学习应用框架研究与实现
E' T | U! B% ]+ @0 U
基于 Spark 的机器学习应用框架研究与实现
# g n- E! B8 O6 D1 M! j
+ r! H7 I% t9 |) x
0 e3 k% T* \; k/ ^; a' t# x7 J" W
聚类分析和分类分析是机器学习的重要领域,K-means 算法和随机
7 E5 D( o4 j( G! [3 Q
森林算法分别是聚类分析和分类分析中最常用的算法之一。然而,
! L' D! F0 G W6 ?& V( \
K-means 算法和随机森林算法都存在一些限制和缺点。K-means 算法中
' S( F6 X! i( ~# A: B: f. g5 U. n
的群组数目 K 值需要使用者预先设定,这对使用者提出了较高的要求,
# S$ D) q8 z- h" G& Z' p
经验不足的使用者设定的 K 值的准确性也存在一定的问题;随机森林算
% [+ Z4 T' G2 Z& ~4 O4 Q( i
法进行分类决策时,无法区别对待每一棵决策树,导致准确性差的决策
0 ^" j u# r7 z
树会影响算法整体的准确性。在实际应用中,待分析的数据集存在各种
' g% G/ R. ~9 d' Z% Y0 C2 [/ p* J
各样的问题。包含较多孤立点的数据集会增加 K-means 算法的迭代次数,
- ^9 w) `0 W, v8 O
提高算法的复杂度,降低算法的准确性;对于包含噪声特征和冗余特征
, l( K0 Q0 Q4 \
的数据集,随机森林算法的准确性会受到影响,错误率会提高。上述这
- I2 A, I: f! R- s7 Y! B' V
些问题提高了用户使用 K-means 算法和随机森林算法的难度。
( a5 R+ F2 H, w4 N8 n; G' Q4 m
另一方面,基于分布式计算的机器学习框架得到了广泛应用。然而,
9 W" ]8 t4 ]* w p* u- q6 N, }$ I' K
现有的机器学习框架受限于机器学习算法自身的限制和缺点,要求用户
" l# h8 v: h4 {, T8 x$ Q
进行数据挖掘和分析时,需要掌握足够的机器学习算法知识,导致这些
) E7 u* m6 K' f3 _7 H, Z
机器学习框架的应用门槛较高。
% G& A2 K% ]* M- F
针对上述问题,本文以实验室承担的某省交通物流云计算平台建设
3 ^& T( v6 n# i$ G0 d) i% s+ Y
项目为背景,对聚类分析中的 K-means 算法和分类分析中的随机森林算
( p6 q% L/ x/ }
法以及这两种算法存在的限制和缺点进行了分析,提出了相应的改进算
2 l/ O0 o$ q2 |- D
法,设计并实现了一套基于 Spark 的机器学习应用框架。该框架具有自
# c; Q3 q% k: Z: J# v9 \1 U
适应的数据预处理、算法调优和参数选择,用户无需关注机器学习算法
8 T# h* D; y& f/ u. s7 t
的底层细节等特点。最后,本文通过交通物流领域的应用例子对该框架
* o7 O+ @- n1 n5 w
I上海交通大学硕士学位论文 摘要
( `. p* X, W' C7 ?! r6 m" h
进行了验证。
% B: b$ E# L; b; v: `
与其他同类系统相比,本文工作具有以下特点:
4 L7 `& T/ R u, r
1) 针对 K-means 算法存在的特征权重不一致、孤立点干扰和群组数
6 M& l+ n R+ Y' k6 F& q) C4 x$ T
目 K 值设定等问题,本文提出了一种改进的自适应 K-means 算法
! r8 C0 W& y O& c* l
(Adaptive K-means,简称 AKM)。实验结果表明,AKM 算法具有对待分
) i, |- n$ Y, I9 A3 w$ J$ k
析数据集进行规范化处理,对孤立点进行检测和删除,自动化求解群组
; J; E/ m$ z; }$ H+ j( l
数目 K 值等特点。
4 l. C6 r. I W: x, I& R+ l1 f* D
2) 针对随机森林算法存在的噪声特征干扰、冗余特征干扰和分类决
0 m6 D. X! g% m7 b/ a) J* I
策投票策略等问题,本文提出了一种改进的自适应随机森林算法
' \& v7 Z7 ?$ x! Y K( Y: G Q
(Adaptive Random Forests,简称 ARF)。实验结果表明,ARF 算法具有删
2 n9 B2 b( ^9 [* r8 Q
除噪声特征和冗余特征,根据具体的问题选择合适的分类决策投票策略
1 l! }: [0 ]+ E& c) {; v4 M
等特点。
& L9 {' J+ D8 T1 r) [' A& [3 x
3) 在 AKM 算法和 ARF 算法的基础上,设计实现了一套基于 Spark
6 B+ T% L8 j6 ?7 k, I: {
的机器学习应用框架 AMLF(Adaptive Machine Learning Framework on
8 i. |1 @0 P7 ]: g; F
Spark)。AMLF 框架具有向用户提供统一的数据访问接口、机器学习模
* a' \ p( q$ r8 z
型的导入导出、统计和反馈机器学习模型信息等功能。应用情况表明,
6 i" q g2 [, `9 Q0 T( K
用户使用 AMLF 框架进行机器学习应用开发时,无需关注机器学习算法
& U9 c# X* R5 f0 V/ F# M+ Z8 z
的底层细节,降低了使用门槛。
) J5 I" S! E8 s, l% _! Z7 ?
+ u" m1 ?1 l, C& ]* M
; F0 S8 @0 x5 N
基于 Spark 的机器学习应用框架研究与实现.pdf
2020-11-20 15:08 上传
点击文件名下载附件
下载积分: 体力 -2 点
4.22 MB, 下载次数: 0, 下载积分: 体力 -2 点
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5