/ o6 ]9 Z U c # z d& J' {* ]% |我们如何克服这个问题? 在计算机视觉领域,我们可以使用数据增强 (DA),或者收集和标记额外的数据。DA 是一个强大的技术,可能是解决方案的重要组成部分。标记额外的样本是一项耗时且昂贵的任务,但它确实提供了更好的结果。8 E! \ p2 r' J& y& y
5 |* j+ G& I' p4 [# b# L* Z S3 E ( l6 Q, ?9 {7 Z; L- l6 M这可能看起来有点牛逼,可以这样想:你能在没有看到物体的情况下对它进行分类吗? 如果你对一个对象、它的外观、属性和功能有一个大致的了解,那应该不成问题。这是在进行 ZSL 时使用的方法,根据当前的趋势,零样本学习将很快变得更加有效。 5 ^& I& j' |4 ^" a1 d6 m* \ 8 d! L/ {: h: @7 s% } p0 h$ c! X+ C5 @3 f' H& r
One-Shot和Few-Shot$ I4 X: u" d9 f1 o& L6 [
在One-Shot Learning中,每个类只有一个样本。Few-Shot 每个类有 2 到 5 个样本,使其成为更灵活的 OSL 版本。4 w$ p/ Z3 O5 q' {0 E) m0 d. l
; p' ?* u9 z4 j3 w( K9 ^
+ k- E* w8 ~, A, z; \当我们谈论整体概念时,我们使用Few-Shot Learning术语。但是这个领域还很年轻,所以人们会以不同的方式使用这些术语。. R9 [ a \- ?0 O
( `( h/ G* L0 ^3 d$ l$ {
% R a. ]' F1 T0 z9 [/ {小样本学习方法* {' T. s% b7 `# l& ^
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-etTvIL89-1624719145926)(data:image/gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVQImWNgYGBgAAAABQABh6FO1AAAAABJRU5ErkJggg==)] & c9 g, F% d* P0 M; }4 G$ T6 b- L$ D* Y0 \" o L1 a
: W; a7 ~1 |& B) j2 P - D- z: m% P# P( m. u3 [. K/ ~# q在解决 FSL 问题时,通常考虑两种方法: + s0 J) v- Z* L a1 c / j5 N1 ]% x1 G8 Z1 Z2 F% Y; H6 W. E4 ?/ c( B) k8 c* `# N4 z
数据级方法 (Data-level approach,DLA) 5 g1 i/ u2 \) X: D- h* I9 C! Y, e
9 x. X5 D) k' G; k( E
参数级方法 (Parameter-level approach,PLA) 1 @: ?$ T) `' `/ ?( z/ n! C+ k: A5 Z- e% ]6 V
2 q- z* c* @ x* s2 e# d' `
数据级方法 3 [, F# U5 f* S; R& G这个方法真的很简单。 它基于这样一个概念:如果没有足够的数据来构建可靠的模型并避免过度拟合和欠拟合,只需要简单地添加更多数据。- o" s& x; `6 i, Y ]: q
+ d3 R6 N% ~% @4 j( s% H" b' r* t 5 E# [% U( j0 {8 P4 w6 V! Z: G! [6 V5 q这就是为什么通过使用来自大型基础数据集的附加信息来解决许多 FSL 问题的原因。基础数据集的关键特征是它没有在训练集中为Few-Show任务提供的类。 例如,如果想对特定鸟类进行分类,基础数据集可以包含许多其他鸟类的图像。3 v. l; m8 ?4 s
5 ?7 g& m) H/ Q" p! [% H # B9 P/ U5 e1 r3 ~! ]) v% K4 d我们也可以自己产生更多的数据。为了达到这个目标,我们可以使用数据增强,甚至生成对抗网络(GAN)。 ) a/ E% r8 f& _$ H! w ` , ]: c2 ^' O) g + _& K- r5 c; u h参数级方法 9 a# {* b" K( B8 E2 k( `从参数级别的角度来看,Few-Shot Learning 样本很容易过拟合,因为它们t通常具有广泛的高维空间。! j' G" y1 g4 M) }1 _
( P: b0 b5 F5 u0 X2 s; c1 ^ 0 h) a) k) a( ]' \, l- A为了克服这个问题,我们应该限制参数空间并使用正则化和适当的损失函数。 该模型将对有限数量的训练样本具有泛化能力。 / _$ v+ v* w) p & T% ^% R6 @+ x! [% E% c- }# _9 M. i5 O5 [# N
另一方面,我们可以通过将其引导到广泛的参数空间来提高模型性能。 如果我们使用标准的优化算法,由于训练数据量很少,它可能无法给出可靠的结果。4 i% I' B2 K' |6 _1 A8 l
5 G/ o. R/ z0 n2 z) X- A& A9 J" |/ [" j2 f$ t. j
这就是为什么在参数级别上训练的模型以在参数空间中找到最佳路线以提供最佳预测结果。正如我们上面已经提到的,这种技术称为元学习。* U! g5 c5 a' G/ v) q+ `: D
: r5 |: N: Q* e3 \) ?' A# W / l1 \2 J2 @8 Q$ y) [Few-Show目标检测. _, O ]/ y6 x c% Q) c* M, D
很明显,我们可能会在所有计算机视觉任务中遇到 FSL 问题。 , y- a3 u( B' s3 P3 ^' ? * {6 g& G% }$ G0 l$ e/ {- S4 t( x# m, i" o0 b& s. @
一个 N-way-K-Shot 目标检测任务包括一个训练集:N个类标签,对于每一类,包含至少一个属于该类的对象的 K 个标记图像,Q张测试图片。# F9 U9 k' J$ d) |" T
" @- m2 ^4 b* ?( F) f6 d; I# z
+ Z. a' `( C' O+ `. P$ S S注意,与Few-Shot 图像分类问题有一个关键区别,因为目标检测任务存在一张图像包含属于N 个类别中的一个或多个的多个目标的情况。因此可能会面临类不平衡问题,因为算法对每个类的至少 K 个样本目标进行训练。 & d4 z. E: j- G& A. G7 p # R/ p5 k* T+ ~6 f. D9 [; q% L5 b
YOLOMAML / ^$ O+ H8 |% g IFew-Shot目标检测领域正在迅速发展,但有效的解决方案并不多。这个问题最稳定的解决方案是YOLOMAML 算法。' F7 D8 W0 f3 l8 X5 |0 ?) @4 p