第一讲 绪论 以冯·诺依曼型计算机为中心的信息处理技术的高速发展,使得计算机在当今的信息化社会中起着十分重要的作用。但是,当用它来解决某些人工智能问题时却遇到了很大的困难。 例如,一个人可以很容易地识别他人的脸孔,但计算机则很难做到这一点。这是因为脸孔的识别不能用一个精确的数学模型加以描述,而计算机工作则必须有对模型进行各种运算的指令才行,得不到精确的模型,程序也就无法编制。而大脑是由生物神经元构成的巨型网络,它在本质上不同于计算机,是一种大规模的并行处理系统,它具有学习、联想记忆、综合等能力,并有巧妙的信息处理方法。人工神经网络(简称神经网络)也是由大量的、功能比较简单的形式神经元互相连接而构成的复杂网络系统,用它可以模拟大脑的许多基本功能和简单的思维方式。尽管它还不是大脑的完美元缺的模型,但它可以通过学习来获取外部的知识并存贮在网络内,可以解决计算机不易处理的难题,特别是语音和图像的识别、理解、知识的处理、组合优化计算和智能控制等一系列本质上是非计算的问题。 因此,神经网络技术已成为当前人工智能领域中最令人感兴趣和最富有魅力的研究课题之一。 1.1 神经网络的研究发展史 1.1.1 第一次神经网络研究高潮 对大脑神经元的研究表明,当其处于兴奋状态时,输出侧的轴突就会发出脉冲信号,每个神经元的树状突起与来自其它神经元轴突的互相结合部(此结合部称为Synapse,即突触)接收由轴突传来的信号。如果—神经元所接收到的信号的总和超过了它本身的“阈值”,则该神经元就会处于兴奋状态,并向它后续连接的神经元发出脉冲信号。 1943年,W.S.McCulloch和W.Pitts根据上述研究发表了他们的神经元模型,通常称为MP模型。在该模型中,当神经元处于兴奋状态时,其输出为1;处于非兴奋状态时,输出为0。 1949年,D.O.Hebb提出了神经元的学习法则,即Hebb法则。当神经元兴奋时,输入侧的突触结合强度由于受到刺激而得到增强,这就给神经网络带来了所谓的“可塑性”,并被认为是用神经网络进行模式识别和记忆的基础。到现在为止,大部分神经网络型机器的学习法则仍采用Hebb法则或它的改进形式。 50年代末,F.Rosenblatt基于上述原理提出了一种模式识别机,即感知机(Perceptron)模型。它是由光接收单元组成的输入层,MP神经元构成的联合层和输出层构成。输入层和联合层之间的结合可以不是全连接,而联合层与输出层神经元之间一般是全连接,用教师信号可以对感知机进行训练。 在Hebb的学习法则中,只有加强突触结合强度这一功能,但在感知机中,除此之外还加入了当神经元发生错误的兴奋时,能接受教师信号的指导去减弱突触的结合强度这一功能。 感知机是现代神经计算的出发点。Block于1962年用解析法证明了感知机的学习收敛定理。正是由于这一定理的存在,才使得感知机的理论具有实际的意义,并引发了60年代以感知机为代表的第一次神经网络研究发展的高潮。然而,遗憾的是感知机只能对线性可分离的模式进行正确的分类。当输入模式是线性不可分离时,则无论怎样调节突触的结合强度和阂值的大小也不可能对输入进行正确的分类。以后,Rosenblatt又提出了4层式感知机,即在它的两个联合层之间,通过提取相继输入的各模式之间的相关性来获得模式之间的依存性信息,这样做可使无教师学习成为可能。M.Minsky和S.Papert进一步发展了感知机的理论,他们把感知机定义为一种逻辑函数的学习机,即若联合层的特征检出神经元具有某一种任意的预先给定的逻辑函数,则通过对特征检出神经元功能的研究就可以识别输入模式的几何学性质。此外,他们还把感知机看作并行计算理论中的一个例子,即联合层的每个神经元只对输人的提示模式的某些限定部分加以计算,然后由输出神经元加以综合并输出最终结果。联合层各神经元的观察范围越窄,并行计算的效果就越好。Minskey等人首先把联合层的各神经元对输入层的观察范围看作一个直径为有限大的圆,这与高等动物的大脑中的视觉检出神经元在视网膜上只具有一个有限的视觉范围原理极为相似。但是,由于在如何规定直径的大小上没有明确的理论指导,所以只能作出联合层的神经元对输人层上的观察点的个数取一个有限值这样的规定。为了研究感知机的本质,特别是神经计算的本质究竟是什么,还对决定论中的一些代表性方法,如向量法、最短距离法、统计论中的最优法、Bayes定理、登山法、最急下降法等进行了比较研究,并以此来寻求它们的类同点和不同点。研究的结果表明,有时即使是采用多层构造,也可能对识别的效果毫无帮助。对某些识别对象,即使能分类识别,但却需要极大量的中间层神经元,以致失去了实际意义。当采用最急下降法时,若对象的“地形”很差,则有可能无法得到最佳值,即使能得到最佳值,也可能因为所需的学习时间太长或权系数的取值范围太宽而毫无实用价值。一般认为,由于Minskey的地位和他的这一研究断定了关于感知机的研究不会再有什么大的成果,而使第一次神经网络的研究热潮逐渐地被冷却了下来。 B.Widraw在稍后于感知机一些时候提出了Adline分类学习机。它在结构上与感知机相似,但在学习法则上采用了最小二乘平均误差法。以后,他又把这一方法用于自适应实时处理滤波器,并得到了进一步的发展。 1961年,E.R.Caianiello提出了能实现记忆和识别的神经网络模型,它由学习方程式和记忆方程式两部分组成。尽管这一研究没有超出以前的成果,也没有实际的应用例子,但由于它在神经网络的可塑性理论方面给出了一些重要的结论而得到了高度的评价。 与上述神经网络研究相平行的是在这一段时期内,脑的生理学方面的研究也在不断地发展。D.H.Huble和T.W.Wiesel从50年代后半期开始对大脑视觉领域的神经元的功能进行了一系列的研究。研究结果表明:视觉神经元在视网膜上具有称作为“接收域(receptive field)”的接收范围这一事实。例如某些神经元只对特定角度的倾斜直线呈现兴奋状态,一旦直线的倾斜角度发生变化,兴奋也就停止,代之以别的神经元处于兴奋状态。此外,还存在对黑白交界的轮廓线能作出反应的神经元;对以某种速度移动的直线发生兴奋的神经元和对双眼在一特定位置受到光刺激时才能发生兴奋的神经元等。这一系列脑功能研究领域中的开创性工作使他们在1981年获得了诺贝尔奖。此后的研究者又把研究范围扩大到侧头叶和头顶叶的神经元。当用猴子和猩猩作实验时,又发现了对扩大、旋转、特定的动作、手或脸等起反应的神经元。此外,在脑的局部功能学说中还认为幼儿具有认识自己祖母的所谓“祖母细胞(grandmother cell)”,尽管这一点还没有得到最后的证实,但从脑细胞分工相当细这一点来看还是有可能的。D.Marr在1969年提出了一个小脑功能及其学习法则的小脑感知机模型,这被认为是一个神经网络与神经生理学的事实相一致的著名例证。 在Minskey关于感知机的悲观研究结果发表后,特别是在美国,神经网络信息处理的研究被蒙上了阴影,大多数人都转向符号推理人工智能技术的研究,但仍有不少研究者在坚持不懈地对神经网络进行认真、深入的研究,并逐渐积累和取得了许多有关的基本性质和知识。 日本的研究者中野,于 1969年提出了一种称为Associatron的联想记忆模型。在这种模型中,事物的记忆用神经网络中的神经元兴奋状态来表示,并对比比的学习法则加以修正,使其具有强化的学习功能并可用于记亿。该模型在记忆了多个兴奋模式以后,就具有了输入某个兴奋模式的一部分而重现该兴奋模式全体的功能。如果一个兴奋模式是由几个记忆事项联合构成时,它就成为一个能通过寻求各事项之间的关联而实现想起的联想记忆装置。在这种记忆模型中,可把记忆事项看作数学中的向量,用自相关行列式来说明记忆的原理。 - m- ^; W, G- V! v
8 D+ [* H+ [: O. m1 M* P
) ~ ]; P& B( W0 T
1 t1 S3 w& z6 d! t7 r, L
|