4. 聪明的扫雷机工程(Smart Minesweeper Project) ' ?+ J4 D, L% @+ `
我要向你介绍的第一个完整例子,是怎么使用神经网络来控制具有人工智能的扫雷机的行为。扫雷机工作在一个很简单的环境中,那里只有扫雷机以及随机散布的许多地雷。 + X: w x3 y& j
0 u S1 l* ~) v: F _. i$ w! n
& S3 [4 O) U! p图7 运行中的演示程序。
6 _$ k- R4 \( F/ C 尽管书上图形画成了黑白色,但当你运行程序时性能最好的扫雷机将显现为红色。地雷,你可能已经猜到,就是那些小方形。工程的目标是创建一个网络,它不需要从我们这里得到任何帮助,就能自己进行演化(evolve)去寻找地雷。为了实现这一功能,网络的权重将被编码到基因组中,并用一个遗传算法来演化它们。
) I1 g9 F+ h# X. y' U' X/ B! f 怎么样,很酷吧? . f' o2 b4 M8 I. W1 v3 N( I* r E
提示(重要) 如果你跳过前面的一些章节来到这里,而你又不了解怎样使用遗 传算法,则在进一步阅读下面的内容之前,你应回到前面去补读一下有关遗传算法的内容。 ) r! w3 E% j, p; P
; K; Q& M0 W8 Y; e2 o) W& r3 P% j1 e* c
% [2 b: Z) T, O
1 y7 m8 ?* ?3 ^0 q6 l
首先让我解释人工神经网络(ANN)的体系结构。我们需要决定输入的数目、输出的数目、还有隐藏层和每个隐藏层中隐藏单元的数目。 ^' e7 C; o) f9 n+ ?
8 D6 P) n. d; Q# d; H8 [8 r9 s
* S% M, p3 y' m v; D
$ ?: s' m1 n0 a( e% L# d3 ^2 m4.1 选择输出(Choosing the Outputs)
% l! o/ V) t' H 那么,人工神经网络怎样控制扫雷机的行动呢?很好!我们把扫雷机想象成和坦克车一样,通过左右2个能转动的履带式轮轨(track)来行动的。见图案9.8。 5 |- l6 f5 y! m. @1 Q
$ Q& b- O( w! C, }7 b4 G8 n+ N% n* \; Y e
图8 扫雷机的控制
7 o& O. U2 `1 x1 Q& Q8 V3 c8 d, e3 I* Z+ v/ f
扫雷机向前行进的速度,以及向左、向右转弯的角度,都是通过改变2个履带轮的相对速度来实现的。因此,神经网络需要2个输入,1个是左侧履带轮的速度,另一个是右侧履带轮的速度。
2 H# M6 C( ^+ | i 啊,但是..., 我听见你在嘀咕了。如果网络只能输出一个1或一个0,我们怎么能控制车轨移动的快慢呢? 你是对的;如果利用以前描述的阶跃函数来决定输出,我们就根本无法控制扫雷机实际移动。幸好,我有一套戏法,让我卷起袖子来,把激励函数的输出由阶跃式改变成为在0-1之间连续变化的形式,这样就可以供扫雷机神经细胞使用了。为此,有几种函数都能做到这样,我们使用的是一个被称为逻辑斯蒂S形函数(logistic sigmoid function)[译注1]。该函数所实现的功能,本质上说,就是把神经细胞原有的阶跃式输出曲线钝化为一光滑曲线,后者绕y轴0.5处点对称[译注2],如图9所示。
. p) w' W8 ^( e[译注1] logistic有’计算的’或’符号逻辑的’等意思在内,和’逻辑的(logic)’意义不同。 [译注2] 点对称图形绕对称点转180度后能与原图重合。若f(x)以原点为点对称,则有f(-x)=-f(x)
6 \) b$ A2 I4 u9 v) j
/ M0 _" W8 j/ d4 K- `) q图9 S形曲线。 " `5 M2 [; Y0 L$ f
+ }2 [4 A7 J8 ~ F; B
6 x# T) |) B; ]4 b& F8 Q4 @
* q2 ?. t! @3 _ 当神经细胞的激励值趋于正、负无穷时,S形函数分别趋于1或0。负的激励值对应的函数值都<0.5; 正激励值对应的函数值都>0.5。S形函数用数学表达式写出来则为:
- v6 ?1 O. s2 L2 ~2 B+ M( o
3 s. ?2 h. o; F; j x% u% ]" u3 x- G
F: p" @ L4 C# Y6 o7 ]: h 这个方程看上去可能会吓唬一些人,但其实很简单。e是数学常数,近似等于2.7183,a是神经细胞的激励值,它是函数的自变量,而p是一个用来控制曲线形状变化快慢或陡峭性的参数。p通常设定为1。当p赋以较大值时,曲线就显得平坦,反之,就会使曲线变为陡峭。见图1O。很低的p值所生成的函数就和阶跃函数近似。P值的大小用来控制何时使神经网络由低变高开始翻转有很大作用,但是在本例子中我们将它保持为1。
7 ]/ L6 ?. u, v% N) Y/ {& q* u* `注:“S型”的英文原名Sigmoid 或Sigmoidal 原来是根据希腊字“Sigma”得来的,但非常巧它也可以说成是曲线的一种形状。
& C4 u$ i0 @6 |/ p0 g% C# W0 Y) ^" p N
3 o0 G G+ g8 l- x2 R# g5 M7 U. i R
图7。10 不同的S形响应曲线。
& j6 F1 T- N5 u5 p4.2 选择输入(Choosing the Inputs) 1 y5 y; `& b6 L- \
上面我们已经把输出安排好了,现在我们来考虑输入,确定网络需要什么样的输入?为此,我们必须想象一下扫雷机的具体细节:需要什么样的信息才能使它朝地雷前进?你可能想到的第一个输入信息清单是:
* _/ ^7 F" P/ b' F8 K8 z扫雷机的位置(x1,y1) 与扫雷机最靠近的地雷的位置(x2,y2) 代表扫雷机前进方向的向量(x3,y3) 这样一共得到6个输入。但是,要网络使用这些输入,工作起来就非常困难,因为,网络在像我们希望的那样执行工作之前,必须寻找所有6个输入之间的数学关系,而这有相当工作量。可以把此作为一个练习倒是很理想的:去试试如何给出最少数量的输入而仍能为网络传达解决问题所需要的全部信息。 你的网络使用的输入愈少,网络所要求的神经细胞数目也愈少。而较少的神经细胞就意味更快速的训练和更少的计算,有利于网络更高速度的工作。
- s0 E/ ^/ }* N% |1 {- B6 ] 只要作少量的额外考虑,就能够把输入的个数减少为4,这就是图11中所画出的两个向量的4个参数。 把神经网络的所有输入进行规范化是一种好想法。这里的意思并不是说每个输入都要改变大小使它们都在0~1间,而是说每一个输入应该受到同等重视。例如,拿我们已经讨论过的扫雷机输入为例。瞄准向量或视线向量(look-at vector)总是一个规范化向量,即长度等于1,分量x和y都在0~1间。但从扫雷机到达其最近地雷的向量就可能很大,其中的一个分量甚至有可能和窗体的宽度或高度一样大。如果这个数据以它的原始状态输入到网络,网络对有较大值的输入将显得更灵敏,由此就会使网络性能变差。因此,在信息输入到神经网络中去之前,数据应预先定比(scaled)和标准化(standardized),使它们大小相似(similar)。在本特例中,由扫雷机引到与其最接近地雷的向量需要进行规范化(normalized)。这样可以使扫雷机的性能得到改良。
: z+ B/ k0 }: I& y, A* E( D
% i: z: T( e7 c5 D/ Z( B' _* l/ N6 f* _6 S e( w
2 ]; C9 ~2 l( \7 k( o0 M G" e
图11 选择输入。
1 p' `$ d6 z3 b# @
2 V( {8 s& m" r6 f$ T
5 w# X* c. a. k 小技巧: 有时,你把输入数据重新换算(rescale)一下,使它以0点为中心,就能从你的神经网络获得最好的性能。这一小窍门在你设计网络时永远值得一试。但我在扫雷机工程中没有采用这一方法,这是因为我想使用一种更直觉的方法。 ' u0 p' Z! E1 g A4 [3 w
* \" x Z+ ]: h7 u5 m5 ~# \8 I7 a
- C: l$ U. _* R: n- k+ B5 E9 Q
/ W4 ^$ p) e9 J( \. n/ N
7 A" {* l/ `3 f* ]! R; f7 v4.3 隐藏的神经细胞要多少?(How many Hidden Neurons?)
/ d; p: b9 m/ ?' H& a6 I+ d 到此我们已把输入、输出神经细胞的数目和种类确定下来了,下一步是确定隐藏层的数目,并确定每个隐藏层中神经细胞必须有多少?但遗憾的是,还没有一种确切的规则可用来计算这些。它们的开发又需要凭个人的“感觉”了。某些书上和文章中确实给过一些提纲性的东西,告诉你如何去决定隐藏神经细胞个数,但业内专家们的一致看法是:你只能把任何建议当作不可全信的东西,主要还要靠自己的不断尝试和失败中获得经验。但你通常会发现,你所遇到的大多数问题都只要用一个隐藏层就能解决。所以,本领的高低就在于如何为这一隐藏层确定最合适的神经细胞数目了。显然,个数是愈少愈好,因为我前面已经提及,数目少的神经细胞能够造就快速的网络。通常,为了确定出一个最优总数,我总是在隐藏层中采用不同数目的神经细胞来进行试验。我在本章所编写的神经网络工程的. . U! n8 U, P; R
第一版本中一共使用了10个隐藏神经细胞(当然,我的这个数字也不一定是最好的<一笑>)。你应围绕这个数字的附近来做游戏,并观察隐藏层神经细胞的数目对扫雷机的演化会产生什么样的影响。不管怎样,理论已经够了,让我们拿一个具体程序来看看吧!你可以在本书所附光盘的Chapter7/Smart Sweepers v1.0文件夹中找到本章下面几页即将描述的所有程序的源码。 0 K( c# m" ?& I) ~3 j# n. L
, B" ~3 M Z0 I5 E" v7 L
|