QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2270|回复: 0
打印 上一主题 下一主题

训练神经网络的各种优化算法

[复制链接]
字体大小: 正常 放大

1186

主题

4

听众

2922

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2023-11-29 11:37 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
梯度下降是最基本但使用最多的优化算法。它在线性回归和分类算法中大量使用。神经网络中的反向传播也使用梯度下降算法。
6 U1 x1 b4 H) z+ Q9 s
# o: G3 I6 |% \  @梯度下降是一种一阶优化算法,它依赖于损失函数的一阶导数。它计算应该改变权重的方式,以便函数可以达到最小值。通过反向传播,损失从一层转移到另一层,模型的参数(也称为权重)根据损失进行修改,从而使损失最小化。/ ?. O( r- c" [* r
; m9 k; I1 \: S  m/ E
优点:" C6 l9 A1 m6 B
* q+ {2 a: s% r! Y9 j; u
容易计算。
/ K) s0 c# T! [! ~' x/ x# t易于实施。4 c/ [0 d- R1 r; Q' U8 `4 x8 V7 y
容易理解。
1 ?! G: F* x4 z缺点:
) P7 ~* |5 r- r& r
( [7 I, d; q7 M2 u" t9 n可能陷入局部最小值。8 h7 }2 n5 N( [' S1 H& [* Q
在计算整个数据集的梯度后,权重会发生变化。因此,如果数据集太大,可能需要数年时间才能收敛到最小值。
' ]5 {4 ]) B2 f6 D! t1 x需要大内存来计算整个数据集的梯度; N! |1 g  l6 N5 ^. ~) q0 X
随机梯度下降0 }& \2 h9 t, y) G5 K
它是梯度下降的变体。它尝试更频繁地更新模型的参数。在这种情况下,模型参数在计算每个训练示例的损失后会发生变化。因此,如果数据集包含 1000 行,SGD 将在数据集的一个循环中更新模型参数 1000 次,而不是像梯度下降中那样更新一次。
- D, O2 }* y# L8 \7 ^5 ~; T& ~2 G, b0 E1 s, W% \+ Q" F/ a
θ=θ−α⋅∇J(θ;x(i);y(i)) ,其中 {x(i) ,y(i)} 是训练样本0 z  H' ~( h+ J' F$ M3 z
$ D# t3 U7 c' h; D' k
由于模型参数更新频繁,参数在不同强度下具有较大的方差和损失函数波动。; n- B$ f- P* B6 g: w7 p$ N
9 L/ f: [" q- Y7 c' P$ r
优点:9 N# \* _* `$ N& w

6 @: `1 S1 z5 \- ?; H  o* L因此,频繁更新模型参数可以在更短的时间内收敛。
  W8 V" |' b9 x# \  K9 R需要更少的内存,因为不需要存储损失函数的值。- K- X. I3 c/ A
可能会得到新的最小值。1 `+ F5 G8 n4 J* l
缺点:
( D1 h' F# x: m' s+ _2 C! g) V) H* s) K) U
模型参数的高方差。
% a6 G( K& W( M: M即使在达到全局最小值后也可能射击。' W! g* B# h  G- H0 U% h* B
要获得与梯度下降相同的收敛性,需要慢慢降低学习率的值。
6 c- r$ e7 E) X# G5 W! B/ z小批量梯度下降" w: c: W7 K; q8 W4 C
它是梯度下降算法所有变体中最好的。它是对 SGD 和标准梯度下降的改进。它在每批次后更新模型参数。因此,数据集被分成不同的批次,每批次之后,参数都会更新。
7 Q3 G! B; D% E' Z7 A% O% C
" [) Y" m0 P# S3 c3 xθ=θ−α⋅∇J(θ; B(i)),其中 {B(i)} 是训练样本的批次。
5 e6 i- w! @7 R5 U' x% v" T
' W% g4 K* n, }; J/ g优点:
/ b) A) K' F- V# g  `0 d5 }. {* J8 O
经常更新模型参数并且方差也较小。
! X6 s7 @9 T8 r- z需要中等的内存
# x/ x3 Q0 P8 h* r7 c所有类型的梯度下降都有一些挑战:" ]& \# z# m" q

6 G2 M( @5 y0 p, X& ^选择学习率的最佳值。如果学习率太小,梯度下降可能需要很长时间才能收敛。( Y. r9 C4 k; w9 p& B
对所有参数都有一个恒定的学习率。可能有一些参数我们不想以相同的速率改变。$ A1 [* T8 s. h9 w& \9 W  Z4 X; D
可能会陷入局部极小值。
- r+ f/ K& z- T+ c7 W- |其它优化算法
, Y3 @# O3 m6 X" n具体我就不再详细介绍,其它优化器如下:) f! @4 q9 P0 J% [
) [6 r$ B4 @" R
Momentum
5 d0 I- _" ~* L6 TNesterov Accelerated Gradient" L6 b" ]0 ^5 l7 g% I
Adagrad
7 d; ^0 u, f6 Q5 C9 qAdaDelta
0 u) k+ \) h" f" zAdam
! W. @4 `* p2 t; H2 B: x' y各个优化算法比较动态图
7 E! B6 R3 U* }9 F1 W VeryCapture_20231129112215.gif 1 ?% ~+ N3 o6 Z; C

1 O) L0 B% u% }& Q! l; g; K  _* ?+ r  B) c- L7 ~# M
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-4-13 13:16 , Processed in 0.442360 second(s), 54 queries .

回顶部