向量性质分析 在样本的统计性质比较好时,即历史样本与增量样本具有相似的分布,使用进行训练得到最优分类超平面与原来的分类超平面近似,只是间隔超平面的距离有所减小,之外的向量成为支持向量概率很小。但是,好的统计性质在实际的数据库中有时是不能保证的,尤其是样本较少时。此时,历史样本和增量样本分布并不相似,甚至分布差异或十分显著。这时如图所示最优线性分类器起了很大的变化。在历史样本集中的一部分非支持向量变成支持向量,同时一部分支持向量退化为普通向量在增量样本集中,一部分样本变成了支持向量,从而影响支持向量机的学习和泛化。在这种情况下,剩余的未被学习的样本有必要被重新考虑,可以将作为历史样本集,剩下的作为增量样本集重新进行训练。当然,这个过程可以继续下去,但那样增加运算的复杂度,并且一般地,二次训练加上下面的权值调整规则,已经能够得到很好的结果。 在上面提到的学习中,使用支持向量代表历史样本集进行训练是不合理的,因为支持向量毕竟只代表分类超平面,不能代表样本集本身,用数目较少的支持向量来代替样本集会使得样本集对分类的影响降低。因此,根据田中的思想需要给历史样本集的支持向量所犯的错误加权,同时,在约束条件中最优分类超平面的法向量和闭值也要加 权,也就是把它们扩大一个倍数。这表明样本越多,由于犯错误而受到的惩罚就越重,分类超平面之间的距离越小法向量和闲值同时扩大不会影响超平面的位置。权值取file:///C:/Users/lenovo/AppData/Local/Temp/msohtml1/01/clip_image002.gif,其中,一样本总数训练/所使用的样本. 使用万作为权值是因为式的目标函数使用的置信范围和训练误差是平方的形式。增量样本集也要按照这个方法进行加权。在初始状态,增量信息是完全未知的,使用加权方法得到更好的训练和测试结果,但泛化能力会受到影响。经过第一步学习得到使用万作为权值是因为式的目标函数使用的置信范围和训练误差是平方的形式。增量样本集也要按照这个方法进行加权。在初始状态,增量信息是完全未知的,使用加权方法得到更好的训练和测试结果,但泛化能力会受到影响。经过第一步学习得到的分类器己经能近似反映最优分类器的特征,第二步学习只是对上一步得到的分类器进行调整,此时不再使用加权过程,避免泛化能力减弱。
0 p4 g3 I1 ^! w- A) l! d* b: {
) \) S# c5 l) \9 @ R9 g& |$ [ |