风靡全球 发表于 2015-8-16 08:47

样本集的选取

样本集的选取一般情况下,样本集可划分为训练样本子集和验证样本子集两个互不相交的集合,训练样本子集用于模型的学习,用验证样本子集对训练后的网络的预测能力(对非训练样本的处理能力)进行验证,合格者即为所求的预测模型;有时还将样本集分为3个不相交的子集,即训练样本子集、验证样本子集和测试样本子集;近年来,李英龙教授149]提出了神经网络一交互验证方法,其实质是将样本集随机的分为s个不相关的样本子集,用-51个样本子集训练网络和用剩余的1个样本子集作为验证子集测试训练后的网络,求得一测试误差及相应结果。重复这一过程直到s个样本子集中的每一个子集都成为一次验证子集为止。上述三种方法各有优缺点,前两种方法计算量小,但对样本集中的样本的利用程度较低。样本充裕时,可采用这两种方法。第三种方法的计算量大(要求重复训练和测试网络s次),但对样本集中的样本利用程度较高,样本不充裕时采用这种方法。本文采用第一种方法。BP模型的建立     对训练好的模型,需要对模型的性能进行预测检验,检验合格后才可以作为预测模型来对待处理的问题进行预测,否则要重新设置BP网络模型的学习参数并重新学习。一般情况下,采用验证样本子集上的相对误差(式.224)和平均系统误差(式2.25)这两个指标来检验所得模型是否满足预测要求。相对误差={实际输出一期望输出}/期望输出一般认为相对误差小于或等于10%的验证样本数在验证样本子集中所占比例大于60%,所建预测模型就有实用价值。根据“砖瓦结构法”确定网络拓扑结构的原则,由表.23则有建模最终确定的网络拓扑结构为4:11:11:2,验证样本子集上的平均误差为.0005179,验证样本子集中精矿品位相对误差大于10%的样本个数为8个,回收率相对误差大于10%的样本个数为7个。所建BP网络精度不是很高,说明还存在一些理论问题有待进一步研究解决。为改善应用BP网络所建立的选厂经验预测模型。提出可从以下几个方面着手:(l)延长收集实际生产数据的时段,并将所收集到的大量实际数据进行归类整理。在此基础上编制类别判别程序,以及建立各类别所对应的BP网络。对于非学习样本,先根据类别判别程序判定所属类别,再选用相应的BP网络进行预测。(2)除研究有效的原始数据预处理方法之外,还需研究改进BP网络本身,以提高泛化能力。(3)非学习样本的预测问题,也是数理统计学科没能很好解决的问题,可综合应用神经网络和数理统计,研究解决这一难题。本文综合应用神经网络与统计分析软件,对改进BP网络的预测精度有一定效果,有助于选矿厂的生产经营与管理,提高选厂的经济效益和资源回收率,但还有待进一步提高与完善。

页: [1]
查看完整版本: 样本集的选取