支持向量性质分析 为了论述方便,本节只对两阶段情况进行讨论,多阶段的情况只是将其进行简单推广。设为历史样本集,也称作旧样本集,是增量样本集,也称作新样本集。为了得到的分类超平面,最直接的方法就是对它们中的所有样本进行学习,这种方法是支持向量机的经典学习方法。如前面所述,该方法会增加运算时间和存储空间。 经典的学习方法忽视了支持向量机的一个重要性质支持向量机训练所得的决策函数仅与支持向量有关,既支持向量机在全体样本上训练和在支持向量集上训练得到的决策函数相同。历史训练的结果在经典的支持向量机学习方法完全不起作用,这使得训练速度很低。本文在充分分析支持向量特征和增量过程的基础上提出了一种新的支持向量机增量学习算法。 支持向量虽然在样本集中占很小的一部分,但却完全反映了最优分类器的特征。增量学习的主要任务就是利用历史训练结果,尽量避免样本的重复训练,得到比较准确的分类结果,并且训练规模不能太大,这面临下面几个问题: (1)什么样的新增样本可能影响学习能力和泛化能力? (2)新增样本如何改变原来的分类器新增样本在增量学习中的地位是否相同? (3)支持向量可以代表样本集本身么? (4)增量后原样本集的中的支持向量如何变化? (5)什么样的向量可能成为最终训练结果的支持向量? 在原样本集中支持向量集完全代表了历史样本的学习能力和泛化能力,它们在增量学习后成为支持向量的概率是相当大的。在增量样本集中错分向量对分量结果的影响最大,这些样本很可能成为支持向量。还有与最优分类器临近的,即使被正确分类的样本也有可能成为支持向量,这些向量处于间隔平面和最优超平面之间,记为,它们主要影响支持向量机的泛化能力。当然,其它的样本也可能成为支持向量,但概率要比上述向量小得多。因此在新增样本中优先考虑这两种样本。这里除去ASV和的样本记为NSV。 现在考虑增量过程,每次增量可以看成三个阶段,首先加入NSV样本,它们对最优分类超平面和分类间隔超平面的位置完全没有影响。再加入ESV样本,这些样本是被正确分类的样本,但是它们的加入使得最优分类超平面两侧的区域更加“拥挤”,从而使得支持向量机的泛化能力减弱,降低了预测的准确率。最后加入ASV样本,它们的加入将使得最优线性分类器有很大改变。以上分析表明这两种样本成为增量学习的支持向量的概率是非常大的,因此可以使用SVU ASV ESV代替HUI进行训练。
( c( V2 g2 v) J4 Q( h, ?- G: f1 L0 H# z: S4 f" L/ a
|