- 在线时间
- 478 小时
- 最后登录
- 2026-4-9
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7788 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2922
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1171
- 主题
- 1186
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
SGD是什么
" p0 A8 V0 {$ xSGD是Stochastic Gradient Descent(随机梯度下降)的缩写,是深度学习中常用的优化算法之一。SGD是一种基于梯度的优化算法,用于更新深度神经网络的参数。它的基本思想是,在每一次迭代中,随机选择一个小批量的样本来计算损失函数的梯度,并用梯度来更新参数。这种随机性使得算法更具鲁棒性,能够避免陷入局部极小值,并且训练速度也会更快。; t0 E! ]* r0 j2 D) Z
怎么理解梯度?
8 j! c9 K6 G1 [- p假设你在爬一座山,山顶是你的目标。你知道自己的位置和海拔高度,但是不知道山顶的具体位置和高度。你可以通过观察周围的地形来判断自己应该往哪个方向前进,并且你可以根据海拔高度的变化来判断自己是否接近山顶。, {: s. ^$ t& c" T3 O
; R( x3 K& M+ ]% O在这个例子中,你就可以把自己看作是一个模型,而目标就是最小化海拔高度(损失函数)。你可以根据周围的地形(梯度)来判断自己应该往哪个方向前进,这就相当于使用梯度下降法来更新模型的参数(你的位置和海拔高度)。
+ F2 [0 h6 H0 L; o8 o0 T& O/ {6 F: [$ D0 s
每次你前进一步,就相当于模型更新一次参数,然后重新计算海拔高度。如果你发现海拔高度变小了,就说明你走对了方向,可以继续往这个方向前进;如果海拔高度变大了,就说明你走错了方向,需要回到上一个位置重新计算梯度并选择一个新的方向前进。通过不断重复这个过程,最终你会到达山顶,也就是找到了最小化损失函数的参数。6 S( D4 {* J* m I5 W4 p
, g+ v' _7 T2 Z/ b' f
为什么引入SGD+ y5 ]6 z) ]* ^, f6 V1 O. Q
深度神经网络通常有大量的参数需要学习,因此优化算法的效率和精度非常重要。传统的梯度下降算法需要计算全部样本的梯度,非常耗时,并且容易受到噪声的影响。随机梯度下降算法则可以使用一小部分样本来计算梯度,从而大大提高了训练速度和鲁棒性。此外,SGD还可以避免陷入局部极小值,使得训练结果更加准确。9 w6 O* c+ a: M( B9 p
8 G. b2 r/ ^$ @) B& J! x怎么用SGD- import torch Z! U\" ]8 ~9 o$ P# `
2 o+ P' p. N\" G3 g+ Q$ E- from torch import nn
1 S2 z( }1 T! j9 Z7 A5 v* w! W - % k3 v; L( K. n2 s/ D! U% ^* J$ n
- from torch import optim
& W, `# r7 n7 [/ r4 b, F5 |9 _
& {- ^/ p2 X) |/ w- 2 O) s! R3 W5 m
- i, I @' m; }1 V. B0 R+ H1 r
- data = torch.tensor([[0,0],[0,1],[1,0],[1,1.]], requires_grad=True)
, f/ B+ ?' ]9 d8 ~! H - 4 I3 l! q- ^1 u1 H8 `- a
- target = torch.tensor([[0],[0],[1],[1.]], requires_grad=True)+ J' k$ B7 O$ Z$ X/ }
4 n/ O0 J- m/ _ Y4 _: ?- - Z! Z. z$ I\" R6 O2 e( d+ \7 `/ H
0 D) X, x6 ^ z& S& `6 ?- model = nn.Linear(2, 1)0 }2 A1 J5 S% S
- / n. A1 E5 L! l6 m1 A/ _
- + v1 @0 J9 c/ h. e
3 z2 c; I( Y u7 j! u4 U5 E0 h$ G3 ]- def train():5 W7 c5 o3 g* H% k' _\" n7 T: l
& Q+ V% l& c8 N- opt = optim.SGD(params=model.parameters(), lr=0.1)8 ], @5 K9 p) q9 w5 G w
- 1 J% Z6 G& d: A8 g
- for iter in range(20):% L8 B% ]( M; Z+ V2 k
% `* j6 x, ?- v/ a- # 1) 消除之前的梯度(如果存在) Z' ]' Y; d5 I. X1 `9 d
- 7 `2 f. W+ E# c\" z. x ~2 x
- opt.zero_grad()
8 \6 E$ c. r9 Y0 M) L - $ J% c6 Z. {1 ^( {6 n# [, X
$ w0 H' N9 Q# e9 w8 j/ x- ! X4 P- [, u3 @\" M0 L; e! `0 s. E
- # 2) 预测4 c9 o) `/ C( V2 K. c5 s) G
5 p, y9 q' Q3 J. B- pred = model(data)6 f+ H% ^1 j) @. v) @0 ?( t
- , `( \$ l+ z4 m5 t6 d
' P1 @, {3 ~\" ?5 U* G6 q9 g- * ~9 j7 f2 D2 k, J. V9 ^2 t# C
- # 3) 计算损失( u5 n4 [\" x& m\" f6 N
- 1 O! \+ o' M9 u9 y0 V7 c6 g
- loss = ((pred - target)**2).sum()# {2 j% V8 O Z3 t1 U
- ( e6 S5 b# S; j
; V. S8 o& |. d* p! l, z9 f# Q+ Z- - W# N4 h- w6 ?0 y9 i/ Z
- # 4) 指出那些导致损失的参数(损失回传)
$ |* y R; e- a% ~8 V @: s - 1 }* C, h; T\" ~ b% n) ^% O
- loss.backward()
5 A% d: i) m+ q - \" z, c6 x$ s0 {! z
- for name, param in model.named_parameters(): I; @# l0 l1 `
- 0 o' l: T) k% U$ ?4 c
- print(name, param.data, param.grad)0 P- N7 b4 u4 Y
- ) q& y$ c9 f! [1 P5 ?1 v
- # 5) 更新参数
$ z% Z4 E) ?- ?5 Q ?8 n, c5 w. z
P/ C1 b) r2 H6 m; H$ O6 o- opt.step()) n M, g; z! R$ c( Z
* C+ q; m# f T% a- ]5 p
! m, V S# A. N7 S* ^ L- ! [5 ^- N9 N/ O; |9 o
- # 6) 打印进程\" x: R& E+ \; ~8 v3 @
4 m7 @4 l# F4 ~- e( O5 G- print(loss.data)
6 t' P$ v* B& O7 u1 G\" [% K
7 O6 \3 {1 o0 O! l, p* u ]
\" X4 f+ C4 O6 n5 |3 v$ p. N/ K/ ]
/ r) |& b. q$ ]' b- if __name__ == "__main__":! _, @3 M% V: M5 s }
q* h\" Z6 ^* ?; \- train()
& B& ]0 B- q0 {/ J- D7 ]- J - 8 j# ~6 W7 b4 F5 d0 q! ]3 ~ D8 j& v
复制代码 param.data是参数的当前值,而param.grad是参数的梯度值。在进行反向传播计算时,每个参数都会被记录其梯度信息,以便在更新参数时使用。通过访问param.data和param.grad,可以查看参数当前的值和梯度信息。值得注意的是,param.grad在每次调用backward()后都会自动清空,因此如果需要保存梯度信息,应该在计算完梯度之后及时将其提取并保存到其他地方。
7 T2 S* C! t T* U* }9 i& e |9 C( `6 F+ n4 T
计算结果:- weight tensor([[0.4456, 0.3017]]) tensor([[-2.4574, -0.7452]])9 b- G0 g! }5 z) H
- 0 Y; L! }7 J4 z* D% d1 i8 J8 ^% p6 p/ D
- bias tensor([-0.2108]) tensor([-2.6971])
n+ o- \; P9 W/ O( F - ( S/ B$ G& s3 l- Z- w
- tensor(0.8531)* G( [$ J& x8 ~' S; a! Q, g
: W1 d\" \ P. Q' i% [- a9 o- weight tensor([[0.6913, 0.3762]]) tensor([[-0.2466, 1.1232]])
% e6 p\" u4 B( }' C% z - $ o) C6 m( A; O7 Q6 I4 p* D
- bias tensor([0.0589]) tensor([0.7416])
1 c! N. F4 h6 ?
# l- V& Z. f/ t# _ a4 R, l- tensor(0.2712); w' v1 ^) v. x* ]) n7 l# A
; c% k' |6 C$ m* `* w, n5 a, M- weight tensor([[0.7160, 0.2639]]) tensor([[-0.6692, 0.4266]])/ ^+ t, [; J8 w: E0 N
- 8 U. a; f1 I4 g) [9 ^& J H
- bias tensor([-0.0152]) tensor([-0.2023])
- @3 l& f8 n/ D }! [& g! O - # G0 X0 w8 |( C$ ] r3 Z
- tensor(0.1529)
$ E' h, D# a; g' k - [! M# W% g9 T: D- ~; O3 n
- weight tensor([[0.7829, 0.2212]]) tensor([[-0.4059, 0.4707]])
) K& ~/ }+ a% U$ R. p
5 `9 Z: Y: D7 r, J7 V) o- bias tensor([0.0050]) tensor([0.0566])
, P2 \% W8 C1 U) o9 j+ l( {) H
4 v( J1 C) D& ~1 w) L- tensor(0.0963)( V- H h/ A+ I, D/ ~3 q- o
9 c/ Q6 Y+ z- \. u8 i8 g3 Y2 I- weight tensor([[0.8235, 0.1741]]) tensor([[-0.3603, 0.3410]])* Z' M/ n( w5 {\" N# n. F8 b
- % \+ S: A% ~( K/ C4 j
- bias tensor([-0.0006]) tensor([-0.0146])) P' x( Q0 i9 S; i: A4 m
6 B/ Y# @' @ `8 m. H- tensor(0.0615)* h) k& w- o) H. Y4 U6 e K* a! N
- % d( h- i& x s
- weight tensor([[0.8595, 0.1400]]) tensor([[-0.2786, 0.2825]])3 ?$ A% I( k7 r
9 ?2 ^3 A' W( d- bias tensor([0.0008]) tensor([0.0048])$ `* j& ` [% j7 m- G
- ( a8 F3 v8 S: y8 a, r- H
- tensor(0.0394)
& v6 S. \' t$ S9 `
5 C2 D' z2 \' J% Y- weight tensor([[0.8874, 0.1118]]) tensor([[-0.2256, 0.2233]])
: [$ M% l. l' y8 i
% n% }6 @* t% ]: `5 n5 E+ u0 U8 _- bias tensor([0.0003]) tensor([-0.0006])+ \) e( N+ u* F, P$ G# n# Z
- . {5 H# g) Q, J! B9 F# n; X3 Z
- tensor(0.0252)
) e\" W3 \# k: O+ J8 }; K# y
! C9 C8 p4 G% l- weight tensor([[0.9099, 0.0895]]) tensor([[-0.1797, 0.1793]]): [2 k$ \' x/ ?\" ~8 a! h
7 \4 ?7 l; O% B7 Q8 t- bias tensor([0.0004]) tensor([0.0008])
1 |: c\" F& y* R/ ~3 C
: K1 [6 y: g- G9 ~- tensor(0.0161)9 N7 ^8 O. d! E7 c) g+ f
; X$ R0 G\" _8 s- weight tensor([[0.9279, 0.0715]]) tensor([[-0.1440, 0.1432]]), i% a; W5 G3 G
- & J5 `: e3 h% w7 R Y# W! Z6 q
- bias tensor([0.0003]) tensor([0.0003])
. k( }1 z. F5 v j0 @* D) Q7 ^
. o4 {7 f2 c: {- tensor(0.0103)4 x0 g# Z3 |' c. E3 D' E/ R: P: ?
- ! G. {2 D& k* S- u+ T8 u
- weight tensor([[0.9423, 0.0572]]) tensor([[-0.1152, 0.1146]])8 Q' Z& {6 j3 C& e5 a
- 6 u1 \- H7 N1 S4 K\" |# f7 @$ M
- bias tensor([0.0003]) tensor([0.0004])% l* g, l Z- o* }
- : s* E% a$ [( m f
- tensor(0.0066)% Y* w$ {+ [3 B- J
- \" a! a! W# J$ o3 j( b
- weight tensor([[0.9538, 0.0458]]) tensor([[-0.0922, 0.0917]])
. @% h& M% h/ j
* w0 b. G4 @. e- bias tensor([0.0003]) tensor([0.0003])
: [; @0 Q9 O. r9 w8 u2 N; m - , W& o8 F- a* C# h: S5 }- `3 o1 Z
- tensor(0.0042)& y [; b6 z8 Z! E\" W
0 g6 y9 x1 ^/ i+ i0 E n2 v\" d- weight tensor([[0.9630, 0.0366]]) tensor([[-0.0738, 0.0733]])! ?: y\" G+ j- Z( ~
! e$ J8 b- Y1 Y( a5 l- bias tensor([0.0002]) tensor([0.0003])
. D' P& w# e1 D# n - ' B& p0 A4 V$ K8 q$ z
- tensor(0.0027)3 \\" m) t+ u4 a$ I! B% ~/ Q4 ]( R( I) Z
+ S2 G9 u4 W& B2 u: O& y I+ Y- weight tensor([[0.9704, 0.0293]]) tensor([[-0.0590, 0.0586]])7 C: |) }$ P' M* z5 ^! a
! b& k* p. o5 t! l {- bias tensor([0.0002]) tensor([0.0002])7 s8 s: J- V\" ^8 g# B8 \/ E* I
- . O6 V3 U9 d* X4 n
- tensor(0.0017)
5 D4 I: X6 L; w, Y) \; j' k( Z - $ d. `; D- V9 `& w U
- weight tensor([[0.9763, 0.0234]]) tensor([[-0.0472, 0.0469]])) i+ r& Z0 }( W) n/ h2 P
1 h5 I3 [* P\" C2 @3 Y' z- bias tensor([0.0002]) tensor([0.0002])
3 B: G4 ^. Q& H7 [4 g% M' t
, r1 o. {\" N0 [0 T0 K\" n- tensor(0.0011)
' J% I/ y; O! Y' _9 v! [ - ; A- [* C2 E7 j/ L6 F
- weight tensor([[0.9811, 0.0187]]) tensor([[-0.0378, 0.0375]])$ O' `# q# k3 Y2 w) l3 P5 n# x
/ f0 E; u% W8 r/ q- bias tensor([0.0001]) tensor([0.0002]) A- h F( k1 t$ e
% E: H. f I, h- tensor(0.0007)8 q6 z z4 h$ E
- 9 p\" q3 g9 g: ]2 m! ?6 t
- weight tensor([[0.9848, 0.0150]]) tensor([[-0.0303, 0.0300]])
) Y& N8 V) M5 `% p: t/ ^
/ x. a3 [& j, j$ O( U\" _, ?- bias tensor([0.0001]) tensor([0.0002])
' V. r, j\" t. k$ W B9 G1 c7 X - R$ n+ c8 C0 N: c
- tensor(0.0005)
6 ^& v2 P4 N0 T* y' b0 R8 }1 G. ^( f - . I* b1 j8 h' S* a
- weight tensor([[0.9879, 0.0120]]) tensor([[-0.0242, 0.0240]])4 k# l$ K2 m# E) m
$ D$ q$ j/ L* w& E' T- bias tensor([0.0001]) tensor([0.0001]), b; H; d+ b( ^3 F& h
\" n7 F9 b7 e. w: P( F\" x6 t\" w4 H( ^- tensor(0.0003): @. }9 [8 d5 t% q$ E\" u/ g
: i2 {2 L. r- g/ s6 E- weight tensor([[0.9903, 0.0096]]) tensor([[-0.0194, 0.0192]])5 N5 X/ m8 P, t1 W
( r3 B\" U: I V; r% }- bias tensor([9.7973e-05]) tensor([0.0001])
: z. K! O' S5 A- f* m
* N8 T6 R( H7 f. J: B- tensor(0.0002)
' v7 \# F\" Z, d) I0 W - & e7 E; ~/ d$ A4 C) r/ z, k2 U( B
- weight tensor([[0.9922, 0.0076]]) tensor([[-0.0155, 0.0153]])
9 a4 ?0 H7 Y\" `- q1 H- h - & E5 D1 g8 \' w' H, y9 I! w
- bias tensor([8.5674e-05]) tensor([0.0001])& {\" P+ W8 u8 c. Y# V
2 P% @- l0 g0 @9 a) n- tensor(0.0001)2 n+ G# a1 b$ p( u8 D$ X
- $ }- ]5 n2 P d1 s6 l) V# L
- weight tensor([[0.9938, 0.0061]]) tensor([[-0.0124, 0.0123]]); _+ H+ K1 R) X8 } Z {& H0 Y* `
o+ Y, b0 d6 l, E+ M- bias tensor([7.4933e-05]) tensor([9.4233e-05])2 _+ H8 q% d H# j# m
+ Z1 L# v% O) L7 v( ~0 y* t; m4 _- tensor(7.6120e-05)
复制代码 0 m' M }6 G6 p# |, w& J" O
|
zan
|