风靡全球 发表于 2015-8-5 12:57

统计学习

统计学习VC维学习系统的容量对其泛化能力有重要影响,低容量学习系统只需要较小的训练集,高容量学习系统则需要较大的训练集,但其所获的解将优于前者。对给定训练集来说,高容量学习系统的训练集误差和测试集误差之间的差别将大于低容量学习系统。确指出,对学习系统来说,训练集误差与测试集误差之间的差别是训练集规模的函数,该函数可以由学习系统的维表征。换言之,维表征了学习系统的容量。将VC维定义为:一个从维向量集到的函数族,则的VC维为尤的子集的最大元素数,其中对于任意`,总存在函数石。维可作为函数族复杂度的度量,它是一个自然数,其值有可能为无穷大,它表示无论以何种组合方式出现均可被函数族正确划分为两类的向量个数的最大值。对于实函数族,可定义相应的指示函数族,该指示函数族的维即为原实函数族的维。推广的界基于统计的学习方法大多建立在经验风险最小化原则形基础上,其思想就是利用经验风险凡仰来代替期望风险,用使尺即最小的心,来近似使最小的值。这类方法有一个非常基本的假设,即如果收敛,那么最小值将收敛于最小值。表明在学习系统维与训练集规模的比值很大时,即使经验风险的较小,也无法保证期望风险较小,即无法保证学习系统具有较好的泛化能力。因此,要获得一个泛化性能较好的学习系统,就需要在学习系统的维与训练集规模之问达成一定的均衡。需要指出的,推广的界是对于最坏情况的结论,在很多情况下是较松的,尤其是当file:///C:/Users/lenovo/AppData/Local/Temp/msohtml1/01/clip_image014.gif维较高时更是如此。而且,这种界只在对同一类学习函数比较时有效,可以指导我们从函数集中选择最优函数,在不同的函数集之间比较不一定成立。

页: [1]
查看完整版本: 统计学习