- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564646 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174617
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
- h5 r7 P% u) {各类机器学习算法的优缺点和适用场景汇总1 E8 J$ I- {( c' y% P
目录
0 ^" V" d- l3 B; a& j朴素贝叶斯分类器(NB:naive Bayes classifiers)
, o3 v b0 ?5 j: K" N) c: a半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
/ L8 t5 c, q4 [/ G2 Q' }贝叶斯网(信念网)
3 S1 m x" Z" S* _决策树(decision tree)6 j$ |& J0 G/ l
支持向量机(SVM)
* n M: W7 R8 G3 G: M( T: | c# r6 B( v神经网络" X3 N. P2 L. y
词向量(word2vec)
( D* @( `- i% g& Bk近邻分类(kNN)
/ J7 ]4 K+ F8 F' A n! e线性模型* t2 a; P/ p7 q) v( J6 S, L9 T
高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
" p# _" z% g3 _4 Y. Q% Y关于学习算法的性能实验结果+ W9 U2 t9 b' P3 W
朴素贝叶斯分类器(NB:naive Bayes classifiers)3 m6 V% E1 t$ R) k% r" t5 T
顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?- l) ?6 R3 C5 W6 R$ m2 N& }1 p
事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。
, j3 l, h% b4 @8 N% V; K/ J8 F9 W; _" M- D) x* w5 p; k
优点:
; @3 D$ s. `/ y5 R# h Z' h1 z1、计算量较小
' w* @# s6 S% y3 h- b! @. b2、支持懒惰学习、增量学习0 n Q# y8 j# o" u0 Z
3、对缺失数据不太敏感
1 M4 l$ S" R3 e* W* H4、推断即查表,速度极快。
9 |" y# O9 P- p% T) [缺点:. V4 C) I+ t' I# b0 A
1、没有考虑属性间依赖
+ t7 ~* \$ }' n( H- Q6 t+ ~3 O) @2、通过类先验概率产生模型
; ~3 w! p8 ]# _$ k" ^4 y8 B# Z
. M9 y/ X, T& N" I0 ?半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
! D0 }/ b) U4 a相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖9 h: }% f7 d. D7 a+ D& {: E
优点:) }5 B) |, \ _9 e" w( B2 c* G" l
1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升+ c) }( I+ F7 o
2、计算开销不大- n c! v% w8 M" p8 }% ~+ y/ z" k- I
3、同样支持懒惰学习、增量学习7 @1 R) n" X4 O9 y* \
缺点:9 [( }, P" e( ^
1、通过类先验概率产生模型7 R6 y% o) S# }+ {" x; i5 }$ g) k
; ~6 u: }3 R% O
贝叶斯网(信念网)
7 n% r$ i9 W4 t( P" A* e* W贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。, Z$ w: `+ f/ i# f+ N
优点:! ^9 ?1 N+ l2 k
1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升
0 y$ _! [$ a* d4 t* B2、近似估算后验概率$ z7 C) p. d1 F
3、可用于推测属性缺失的样本/ H% t( h9 G) E- ]) H
4、良好的可解释性& G% @/ U0 d) u# u+ p' L0 v% b
5、常用于语音识别、机器翻译等
+ q$ h* \0 L7 n7 V1 h( @缺点:
K/ F, t3 k9 b+ u& e# w: ~- G1、结构学习NP难,通过评分搜索方法缓解
, l4 Z- a2 |, U3 u6 `& ?( g; ^2、推断算法的收敛速度较慢# t; @% e% V& w( N- t: N0 ]3 @
2 \2 n2 L9 Z* n! t) a
决策树(decision tree); Q5 B4 Z2 [! e: v/ z0 ^" C
决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。3 H ? U0 F' t W
优点:
R _1 w; r, c- k1、计算量较小- [/ q6 s) E, ?. ?6 {1 ~
2、清晰表达属性的重要程度
2 w o! s" O- `+ X5 M- B# r6 `3、可增量学习对模型进行部分重构
* t6 Z. K. H1 x/ s, d% a4、不需要任何领域知识和参数假设# B9 f( {, q! c1 B! G
5、适合高维数据3 d9 o- B" O0 L* Y
6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板
7 B+ l- t8 J. v- u# d5 J# W( W缺点:$ z* l: C. l- n" ~1 V; H
1、没有考虑属性间依赖
! t o3 m% M% V, {2、容易过拟合,通过剪枝缓解
, M/ l" l+ n0 V5 z' s7 s3、不可用于推测属性缺失的样本
6 _. x' W4 N: K: `( q8 _3 Q& J; q* j* k, [5 B3 o7 N5 Z" E
支持向量机(SVM)
- G& R5 j$ Z/ j+ E% k0 d r基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。 m4 ^$ ?, f6 Y3 p4 P& n0 U
优点:5 _3 X1 M% b3 y0 q( i8 }; M( t
1、可解决小样本的机器学习任务" v: [0 u$ {9 B* m0 M' h
2、可解决高维问题4 X n# @0 H! S8 `- n
3、可通过核方法解决非线性问题' t! M& Q) d2 N! J
缺点:1 ~0 Y. U: c! \% ~
1、对缺失数据敏感
6 q/ H& p: M4 p b. ~2、对于非线性问题,核函数方法选择一直是个未决问题
. v% c' K: e1 a/ W$ _- o6 C; X; ]# C
' ~% |. u$ _9 ^5 S0 L' }7 b神经网络
) h4 o% L9 i' \. U9 [5 d* G" y/ g优点:
0 o0 ~/ `# I0 G& R- m# h1、分类的准确度极高
# n# a+ k$ K& O! k2、可解决复杂的非线性问题
8 _7 Q7 j. ^7 P. @8 b; D3、对噪声神经有较强的鲁棒性和容错能力' A, c. H/ r0 m0 Q! X
4、并行分布处理能力强,分布存储及学习能力强5 K) M8 Z& a+ Y" u" }6 W# ]
5、常用于图像识别* e3 p0 z% M5 R; ^' b! V
6、数据量越大,表现越好' Q( L& g6 d0 X2 P) ?7 r$ B# n n R
缺点:( m# x$ B9 ~& x
1、黑箱模型,难以解释
' y6 F7 m" B, @2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂
2 Q2 t% f! b( ~% z1 j; V8 f! i" P3、误差逆传播的损失
0 o1 A' K) }8 R0 C. G4 M4、容易陷入局部最小# |, M( k. m4 u! y% ]
7 }: Y' U, Q# K" ~! o; M/ Y
词向量(word2vec)9 x0 q6 z+ {' }) v; E4 q n4 |& k$ x
将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。
: K. [6 n4 N' h! a. L比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。
7 w8 o. ~% q, q) z" H/ h再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。5 r- u: ~8 N- r& K# j
gensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。
2 f. Y" V7 Z" z& S1 n- a8 g; w
. c# U$ T1 ~ O1 G/ Q& ik近邻分类(kNN)' s2 x! Y* H5 j' D5 s
基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)/ {, }; ^. i2 b, t D* p
优点:
) M5 s4 u0 A# Y9 O& A1、思想简单,易于理解,易于实现,无需估计参数,无需训练;
7 U4 i& _4 D4 V) t9 R2、适合对稀有事件进行分类;
; d6 \0 W6 }& B4 |3、特别适用于多分类问题# K/ q& U* R( V; o4 @0 R. y* t
缺点:
* E B- B9 S$ c y# z1、需要计算出待测样本与所有样本的距离,计算量大8 D$ J' z, R$ `
2、样本不平衡时影响大
" _1 ?& W* C5 }8 g% F# ?1 D3、适用的特征维度低
7 P/ J" C, e; y
% N$ P. I, T: x5 t2 k$ p8 c线性模型! X, }! B$ ^: j+ D$ \) K
优点:
$ Q( D0 U3 B# |, X' _5 g1、算法简单,编程方便3 C& n, g- g$ _) d0 `4 q f1 j& o
2、计算简单,决策速度快
. I5 o( G. J' y5 f: `+ Q. [' l缺点:1 G( Q* f# P" c1 @; ^; T
1、拟合效果较差3 y. V! Q5 Y; t3 v2 I! I1 e5 K9 L
7 L& v* R0 g/ o1 V* U5 t. i0 {2 r高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
3 O2 Z: S9 T7 ?k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类
. _% K( z' W5 z. {# M由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。
4 _1 h6 ^1 H* f7 O) H0 E
; B8 z4 S; U* V/ {7 ?0 }关于学习算法的性能实验结果
; D2 v8 P% B3 P! n& v8 H l, S点击查看原文
) c& A% s2 t3 o3 F) m0 X: w
$ t" u; B# Q9 ]6 N, W/ n0 j, I0 i14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。# Z" @& \( h z8 w; x5 l
论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?0 X' y+ |$ q" e g4 j1 K4 g) _& p* Q
没有最好的分类器,只有最合适的分类器。
5 w2 c/ c- m# S) h/ l( t1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。
* |3 R8 q4 o5 e9 F* z6 H2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
0 b3 h4 l0 @ Y4 ^; W6 V. K3、神经网络(13.2%)和boosting(~9%)表现不错。2 W' y9 N Q0 \% x- ^4 C8 b: z5 c
4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。9 l$ s) U! R6 x1 y: W# G
5、数据量越大,神经网络就越强。" n5 r6 Q$ O/ E1 j
————————————————* z# c' K, K V( H0 r" o7 w8 [: k0 y3 i
版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
' C y* }' t8 o( f" |5 o原文链接:https://blog.csdn.net/u010921136/article/details/90668382
. X, D2 T3 P% O- i/ f# d$ h* Y' h' Z; a8 r/ q5 u- G1 @
) l B. }8 M7 N! C: ^; A$ E
|
zan
|