数学建模社区-数学中国
标题:
数学建模(一)——卷积神经网络
[打印本页]
作者:
杨利霞
时间:
2019-4-4 16:11
标题:
数学建模(一)——卷积神经网络
数学建模(一)——卷积神经网络
1 i: H1 j7 i4 i& O# z8 Y. _
数学建模系列——CNN原理与实践
( ?" W; |: `* u) y) i- C$ K
大概建模一年多了吧,准备趁着这个暑假,把建模的东西整理一下,留个笔记和纪念,万一哪天不会了还能翻翻笔记。众所周知,建模这东西入门不难,网上各种教程一大把一大把,人家写的也很专业,我写的东西基本登不了大雅之堂,跟人家没法比就写点下里巴人的东西吧。
: l4 {: d/ |/ l: V! P5 c# s
' h z, @% x* k( }# V- e
1.1.概念引入
$ J6 F' D9 r/ j2 X
% Z' p0 G7 _3 M+ h/ l
1.11.1 图像处理中的卷积运算。看个图生动形象的理解一下下:
' F: q4 D# |6 G6 H8 m3 I
! T+ U R$ G' ?7 a3 r
" L% H# i" K; @+ N, r& D6 |
在设置好矩阵之后,又该如何运算呢,来,看下面的动图。矩阵对应相乘相加得到卷积的结果。比如,对于左上角的元素4而言,它的运算方式就是:1×1+0×1+1×1+0×0+1×1+0×1+1×0+0×0+1×1=41×1+0×1+1×1+0×0+1×1+0×1+1×0+0×0+1×1=4
& r( i7 R3 z+ P" V% G
6 [8 b! y- n* D5 \% T
1.21.2 填充padding。上面的操作看着貌似很好,但是有没有缺陷呢?当然有,第一个问题,5×55×5的矩阵和3×33×3的矩阵的卷积结果会得到3×33×3的输出矩阵,也就是原始图像在提取特征的过程中被缩小了,一直卷积的话图像会被一直缩小到一个像素,显然不是想要的结果;第二个问题,原始图像左上角的像素只参与一次运算,而他右边的像素参与了两次运算,是不是不公平?是的。那么如何解决这两个问题呢?
3 J0 V) M! w1 y v2 S% k% D# X5 n
+ s) T: d; D* V0 [" D& D
不失一般性,设原始图像为n×nn×n的矩阵,卷积核为f×ff×f的矩阵,那么输出结果就是(n−f+1)×(n−f+1)(n−f+1)×(n−f+1)的矩阵。言归正传,怎么解决上面的问题呢?答案是填充。在imange矩阵的周围在添加一层像素,使其变成(n+1)×(n+1)(n+1)×(n+1)的矩阵,而填充内容是随意的,如果添加pp层像素,原始图像就会变为(n+2p)×(n+2p)(n+2p)×(n+2p)的矩阵,为了使输出矩阵和原始矩阵的维度相同,就要满足下面的等式:
9 `, u: I4 V( c& V* {
" w, Q# [: k* P1 @3 d- A
n+2p−f+1=n⇒p=(f−1)/2
5 [! C) i7 }& r7 Z
n+2p−f+1=n⇒p=(f−1)/2
7 }& ? D7 ^4 P/ e9 D
1.31.3 卷积步长stride。上面的例子中,卷积的移动步长是1,当移动步长s=2s=2的时候呢,7×77×7和3×33×3的矩阵卷积输出的结果是3×33×3的矩阵(自己脑补,就不画图了),于是又得到一个规律,卷积输出结果的维度是(n+2p−fs+1)×(n+2p−fs+1)(n+2p−fs+1)×(n+2p−fs+1)。
|( m& P+ c! R) H
1 I% n( y0 X* X% @$ N
1.41.4 卷积步长stride。上面的例子中,卷积的移动步长是1,当移动步长s=2s=2的时候呢,7×77×7和3×33×3的矩阵卷积输出的结果是3×33×3的矩阵(自己脑补,就不画图了),于是又得到一个规律,卷积输出结果的维度是(n+2p−fs+1)×(n+2p−fs+1)(n+2p−fs+1)×(n+2p−fs+1)。
, I. `$ t5 ]' y& W; K, }( M9 a0 e! B
. H; W: ^7 W# d; S1 ]9 [
2.2.立体卷积与多特征输出
, @. R4 I* u1 |4 v, a* s( c) J& v9 o
2 r% C6 `" |4 g. k! H
2.12.1 立体卷积。其实感觉立体卷积这个名字不好,确切的说应该是RGB图像的卷积,容我解释一下应该就能理解的更加透彻了。众所周知,RGB图像有三个通道,也就是意味着RGB图像是n×n×3n×n×3的矩阵,那么怎么对这个立方体进行卷积呢?
* o- U' M+ l) L2 w* }" |* z
* S+ O6 V0 h# b' ?# f t# _+ t/ f
! Y6 a% d: H! E: m
8 v% z6 _4 a3 V/ y
看上图,左边是RGB三色通道下的图5×5×35×5×3,黄色的是卷积核3×3×33×3×3,当卷积步长s=1s=1时,最右边是输出图像4×4×14×4×1,具体是怎么运算的呢,同二维卷积,卷积核与原图像相乘相加,第一层卷积核和R做二维卷积,第二层卷积核和G做二维卷积,第三层卷积核和B做卷积,(卷积层数和输入的层数保持一致)将三者的结果相加求和,得到输出的第一个元素,以此类推,得到输出矩阵。
. @, `+ i0 D5 [4 ?
5 ^/ V, X3 h8 m. d/ T3 @$ O' }+ ^
2.22.2 多特征输出。先乱入一个重点,关于卷积核提取水平特征,竖直特征等特征的方法,可以先看看我的这个博客,介绍的比较简单。卷积核。在了解了如何提取想要的特诊之后,那么如何同时输出这些特征呢?看下图。通过设置多个卷积核来提取不同的特征,每增加一个卷积核,输出图像的维度就会加一,比如,有xx个卷积核,输出的图像就是n×n×xn×n×x的矩阵。
! R# ?2 c% [; k: z5 Q/ r! P
( h. M1 O5 }) A, P; E6 B1 A d4 w, `
' e+ ]- Q+ s. y& g" w- a
& `8 ~/ p" S6 g
3.3.单层卷积网络
# C# d/ H: L0 E2 |" b
, O4 M6 _ t& O/ R+ t8 n% ]
3.13.1 激活函数与偏向。偏向可能翻译的不好,他的英文表达是bias,可能看了英文就理解的更生动吧。用最简单的形式介绍下激活函数和偏向。假设有一个输入xx,x+bx+b即为所求的输入加偏向,bb是随机常数。然后对x+bx+b进行激活,激活函数有很多种,举一个例子说明,看下图sigmoid的函数,(就是高中生物的那个S型增长曲线)。当输入的x+bx+b在[−∞,0][−∞,0]内,得到的yy在[−1,0][−1,0]之间;当输入的x+bx+b在[0,+∞][0,+∞]之间时,得到的yy在[0,1][0,1]之间,因此激活函数可以理解为一种映射关系,将输入的xx映射为yy。
; z$ t2 g) D# a7 a* l; N
5 t( P% b% |, t+ b$ D: T0 D q6 d
( |1 H e8 A+ L2 t5 G2 v3 o
3.23.2 偏向、激活函数在卷积中的应用。
% n0 v1 ]6 r# s' T7 L: o w( r
+ T5 ^ W( f, D$ i8 u/ ?4 T
如上图所示,承接上文,在得到卷积的输出之后,对输出的每一个像素做偏向、激活的操作,得到新的输出结果。
+ r* E1 J1 M0 ~* |# l
! K! h1 z: N# l+ Q2 y% i( k ?2 J
3.33.3 第一个卷积神经网络。接着看上面那个图,一次卷积之后会得到三个4×44×4的输出矩阵,将输出矩阵的元素排列成一个48×148×1的向量,在导入lofistic、softmax中去判断,你输入的图片是一只猫还是一只狗。当然还可以有多个卷积层,除了卷积层(conv)之外还可以有池化层(pool)和全连接层(FC),接下来介绍池化层和全连接层。
6 x) p ], d! P4 P
' s& D8 @' H e8 F/ x4 j* M
4.4. 池化层
# e& p) d3 n c& T7 ~- M& C* j& D
% N+ L( K8 ~1 w `: |
4.14.1 最大池化。(用的比较广泛)。可以理解为取出特征值最大的做为输出或者取其平均值作为输出。
8 v, t+ E# n2 c* R) v% h1 C
5 o3 A- N7 a( ~+ N0 K. v
4.24.2 平均池化
( [7 D( y6 c3 \ x
1 |9 l' n/ c% j0 h
5.5. 含有常见模块的最简单的卷积神经网络
3 G/ g. H1 ?0 X0 R
* I- u( `7 ?' `' E6 ^
6 ]+ j& Y" [, C5 W6 @
6 X6 V: K$ Y3 o; p! Y# r7 h2 S
结构很简单,首先是32×32×332×32×3的图像输入,第一层的内容是卷积,池化;第二层的内容是卷积,池化,第三层是全连接,全连接的形式和普通的神经网络一样,嗯,起码得有一丢丢神经网络的基础。然后得到最终的输出。
4 ~. a2 x5 j3 [
8 S) ?, L4 b1 r7 M* R
6.6.python实践
, m. `5 c% P ^* G5 M! f2 c) y
4 Z) r e. L9 H, u
1 v9 f7 W4 C7 W/ m0 d
" j& p8 |3 u: x3 Y% R/ N4 P8 R3 E
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5