2 T1 I! ?7 v7 Y! z9 ~ 极限多标签分类-评价指标6 Y2 T( t% `6 h9 z2 u# T4 O8 P
1 O; j1 S' O. t) Z6 k) f+ [& e
极限多标签分类-评价指标* u1 ~" A/ c' O2 T8 e0 H! I
References: 8 I- s, f. O1 f; R) w) k4 v, q4 _http://manikvarma.org/downloads/XC/XMLRepository.html& u8 K* @: F3 l
https://blog.csdn.net/minfanphd/article/details/126737848?spm=1001.2014.3001.5502 & p1 A ]/ R$ E& ~https://en.wikipedia.org/wiki/Discounted_cumulative_gain : B0 [/ R4 r0 `! @: } e# Z3 x/ T( W9 D0 Q- v/ W' N/ v
什么是极限多标签分类 (eXtreme multi-label Classification (XC))?! [# Z. M! X) t9 J Z# b
标签数非常多(Million),典型的就是BoW数据标签。1 x& C- t# q3 k6 O
极限多标签分类的典型应用:Image Caption(头大)。不过在Image Caption里面,Word之间存在序关系。XC可以看成是Image Caption的一个关键阶段,它能够选出与当前Image最相关的BoW。; i. h( e8 T5 K2 t' O0 D! F" p h5 J; D
(上述都是靠过往经验吹的,近期没调研)。 - Z) N. U" t* z1 \% l8 ]2 S+ q2 f* Z) s. R
先来看一下评价指标:, @6 M3 M6 K& g3 O3 [
由于标签数非常多,且GroundTruth又非常小,因此通常意义上的分类精度、召回(多标签分类用macro或者micro的acc或者recall)等指标不work。) S+ Y/ y5 s$ ^( N: }
这些评价指标通常考虑了head/tail labels,也就是高频标签和低频标签;以及reciprocal pairs(互惠对)去除?$ a& y( x* @; |- s: N9 m
互惠对似乎?是指彼此相关的标签对,比如针对一个数据点,如果预测了标签A,如果标签B和A相关,那可以自然预测B。% H1 a0 `/ h" g0 ]
为了避免这种trival prediction, reciprocal pairs应该被去除。 3 B# K9 W$ P& P4 B2 ~6 h6 E, G- q1 g! s1 z
(1) Top-k kk Performance:; q- Y1 Q5 j$ y2 ~( F3 d o- k
(Precision@ k ) P @ k : = 1 k ∑ l ∈ rank k ( y ^ ) y l \text{(Precision@$k$)}\text{P}@k := \frac{1}{k}\sum_{l \in \text{rank}_k (\hat{\mathbf{y}})} \mathbf{y}_l & Q" _( M' I+ Z& g8 L( S(Precision@k)P@k:= 3 n) P2 E" U! w$ J1 ?k) X8 ~/ `9 Y* [1 ?5 y$ `% Z" G" U% \
1 6 c2 M/ O9 W( o2 I$ E9 x1 x) g7 L+ h9 u! h0 t0 @
# ~) B4 V3 H8 |) Z5 M" Fl∈rank ; D1 J- P; _8 L* V( r$ f9 |k 6 L) T' y( n' K" R6 i9 `% _6 G) D% y3 b6 f* X* H# `' y. y
( 8 F# ~9 o( W$ G1 f& L9 ny6 @: f& L1 p o; W
^0 Y* d0 R2 b# Y+ u$ q
7 n) W6 z- E- J/ }1 |3 [ ) * s( p0 `. P! o& Q∑ ' J3 F4 O/ N w: p$ ~0 v& E5 s( L & N& y$ q- r* P! I4 G8 A- a y & `- I8 `1 t# U5 k7 n2 t" l
l : e7 m# i+ W& Z% {) Y+ r9 B3 z
+ p, |8 j5 m1 k* r' ^, w2 k
: S% \/ x& i' B: w/ T9 L# X# l3 O
(Discounted Cumulative Gain (贴现累积收益))DCG @ k : = ∑ l ∈ rank k ( y ^ ) y l log ( l + 1 ) \text{(Discounted Cumulative Gain (贴现累积收益))} \text{DCG}@k := \sum_{l \in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{\log(l+1)} * m8 a: w& }% c0 |" Q" @(Discounted Cumulative Gain (贴现累积收益))DCG@k:= - I$ e. ^ I9 Nl∈rank " I$ _9 w* D' a- Ik7 J! g8 m7 p1 `. s7 e
4 g' H' Q+ _; F. t ( ( z4 b3 c( k: W
y9 W2 M) b. ?. V0 m) c# Q. d
^ 2 e& V, n' M4 T% U' g , {6 k+ Z) w; ^3 W; D7 v ) ! O& z- b/ O! q8 p4 D∑ , b& Q# p* B/ q$ G/ Z D* ~& T3 ?" ^4 E8 Z$ t" g5 D
# p+ b6 r7 ?) k+ h0 g0 s1 }" ?# M
log(l+1) " t$ v$ y- u: E( H3 n8 cy , _9 `" U4 W% P6 H
l $ z6 m! T3 o1 y5 M. Z0 @. `8 d; F" x) E4 R; W
$ i5 K$ K1 ~' b% b& P
9 i/ ~) w7 J. p 2 t0 U" t& N4 U i: v+ |5 m, f2 k! k5 g$ Z% L: ^- |
(Normalized DCG)nDCG @ k : = DCG@ k ∑ l = 1 min ( k , ∣ ∣ y ∣ ∣ 0 ) 1 log ( l + 1 ) \text{(Normalized DCG)} \text{nDCG}@k := \frac{\text{DCG@$k$}}{\sum_{l=1}^{\min(k,||\mathbf{y}||_0)} \frac{1}{\log(l+1)}} 5 W- x, W; [. }1 b. U8 F(Normalized DCG)nDCG@k:= 4 d* o0 l, x% q2 I6 e
∑ & L2 b$ \" I0 n7 U0 D+ m) Il=1 ' J9 [- N5 `8 T9 L8 ` emin(k,∣∣y∣∣ $ h) i& p0 x# i$ o
0 8 c% f# T7 x$ w7 f) A " m! h% p3 q7 B6 J9 ?! T/ m l ), @. a' I4 ]+ O M4 a0 p; E M
/ d$ W d5 T& X+ D) v# [0 Q& D5 `( |5 r1 x
log(l+1) 7 _! q; t4 T, [$ \* i0 ^& |1 : {% r6 t3 q0 h8 X- J1 E) W( t* n* A& S8 h
) C, X4 R. A c# |DCG@k , U( g6 p- D1 {7 o: O, V$ m- _( k( g. U0 @, t: Y0 x5 {! c, L
0 b- Y% G4 M' {9 K L
4 \' I+ o @4 e4 yrank k ( y ) \text{rank}_k(\mathbf{y})rank 9 q& x. l8 O! s: E# P6 v: m8 n
k 5 }6 b& G7 g* _5 L) {8 s% s- W7 I: e6 V6 _3 r
(y)为逆序排列y \mathbf{y}y的前k个下标。Note: DCG公式里的分母实际上不是l,而是from 1 to k. : L8 N! X7 K. X; K8 O9 h h1 r7 A P
靠后的标签按照对数比例地减小,说白了就是加权。至于为什么用log?两个事实:1. 平滑缩减; 2. Wang等人提供了理论支撑说明了log缩减方式的合理性。The authors show that for every pair of substantially different ranking functions, the nDCG can decide which one is better in a consistent manner. (看不懂,暂时不管) : u5 v5 d$ J( y, p ! G2 Q( p6 O# _(2) Top-k kk Propensity-score:9 ~( R* }4 L4 J! \8 n+ I
2 O' W" {* Z3 C! A
有些数据集包含一些频度很高的标签(通常称之为head labels),可以通过简单地重复预测头部标签来实现高的P @ k \text{P}@kP@k。Propensity-score可以检查这种微不足道的行为。 . }7 H C2 @& M/ x: |; {: Q8 b- T( Propensity-score Precision ) PSP @ k : = 1 k ∑ l ∈ rank k ( y ^ ) y l p l (\text{Propensity-score Precision}) \text{ PSP}@k := \frac{1}{k} \sum_{l\in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{p_l}, ~/ Q% B1 r' q' z4 F
(Propensity-score Precision) PSP@k:= F# S6 }+ Y6 l! K. i
k ' m8 L7 E$ X$ g4 u+ r14 R' T7 S* \; Y9 X' q5 X* x
, q4 X9 x" _" _0 M T$ Q" t9 c- K1 }
2 b8 K- n+ L& il∈rank ; R9 i/ ?' j6 f p2 uk , S" d' m8 \" }1 U ' N% _- j; [0 ^" T8 L! j ( # _1 d! }; Z' k' }5 _/ p! ky& S" Y# T/ q8 j8 X! J
^ p8 ~1 _+ C. n# V N' o
# ^9 H( K, \# x' Z. V6 U0 ? q, j' ] )3 P& m" V9 q& Y
∑ ) f. V! E8 l! N* Q+ A% r* b* m* _ ) J) O' r: J0 S) H) n1 {, Y. F$ S |
p 8 j- F, M/ U1 H. ?% O5 `6 H
l 9 Z+ l. c, B" V. D f: `! N 7 n1 ?& i4 M; K5 B4 R! X+ A1 {# r3 P0 [& o# d
y 0 Z. ~) q2 F( i# g" s8 Y& D9 t5 \l0 P( x+ t. t# ~" S
, r2 W, {, e8 q& L( S- J; ?$ }' b6 V3 \# [7 u" K3 g
. Z6 p |8 y$ B( R0 o
* I) Q! J- x/ A2 D! n0 G! ^0 Z , \ O1 d9 e3 k9 gPSDCG @ k : = ∑ l ∈ rank k ( y ^ ) y l p l log ( l + 1 ) \text{PSDCG}@k := \sum_{l \in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{p_l\log(l+1)}3 K6 n7 |- s% y+ {) d& d' G/ x( H
PSDCG@k:= ( E' z5 s8 m5 `% z! n) d1 [l∈rank ; `# k0 d7 j! c1 U e+ Ik: C" r' G1 s. ?5 v' ]
' q. X# f; u2 c* {6 s, p' S6 Y1 H
( ! u% U# z8 p7 [9 c
y 7 l& z# M( ]- e5 a" C8 Y( E, l: p4 ]6 o^ 5 T( J) V( h- m p$ r2 h+ w; U8 q' W ) . a+ u9 J8 N5 ~∑ 9 v/ t5 M+ P5 F/ o( F + S6 F3 |3 Q9 s3 Q 2 K! X* J$ O# qp : c2 T% I c# {5 z. k: b( ]2 W. u( d
l+ S- v2 ]/ n/ ^4 A2 y; t' d
4 L1 ^( j) y8 }# e& L, N5 ^* ^# A
log(l+1) 5 o; L4 X; {) U) q% b: Xy 3 S8 T3 A" L: C# L% Bl 7 f8 r8 `: O) g h1 F% m# [+ y5 |& t! W3 ^$ w
, L: q' J) B2 R/ s; p # v* f. F! ` G# s; j$ W 9 @! O# U# u( M& @7 D, Q0 U0 T* Q1 k- f! g5 A" F5 K
PSnDCG @ k : = PSDCG@ k ∑ l = 1 k 1 log ( l + 1 ) \text{PSnDCG}@k := \frac{\text{PSDCG@$k$}}{\sum_{l=1}^{k} \frac{1}{\log(l+1)}}) S& M) O8 Q4 J Z3 X7 E- t
PSnDCG@k:= 9 a: ]: {; Y' K2 @6 V
∑ " e4 c: A% t; T* Y2 X
l=1; ~+ U1 p- _' c3 G7 V# C
k 6 f- q' ~% e7 D! ^3 B( K" I3 W8 U5 f* s; y4 c
) ]' I# |" X9 a7 {) @' o+ U Z3 Q
log(l+1) . k- C; v9 Y# }0 v1 M' Y1 ( [4 D, k2 y ?" o' S+ Z5 h & ~7 H* H! A# _- B# | : \. m3 |4 Y' m: HPSDCG@k + K. C! X+ P! O4 A * z2 F( ~& F: u" Z: b! l3 j " q2 W9 f% w3 J* u( J$ k % B) b' x f! z K7 q* A其中p l p_lp 0 d9 s) X! ~9 S }7 ~l$ K1 q/ s) Q4 f; d/ [- v0 f1 b
9 D$ [; j& I5 _6 P4 _5 Y 为标签l ll的propensity-score,使得这种度量在missing label方面无偏差(unbiased)。 1 E6 b- k# q6 L3 O, qPropensity-score强调在tail labels上的表现,而对预测head labels提供微弱的奖励。3 r$ Y; o# R8 H9 J- k5 n+ F* `+ e
———————————————— ! E1 @) }5 `& F: }. [ ?版权声明:本文为CSDN博主「摆烂的-白兰地」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 + X8 J/ o5 f% L! F7 H原文链接:https://blog.csdn.net/wuyanxue/article/details/126805190* R/ V& s/ U/ K1 D! i
8 [" F8 ? S6 w$ s) O0 e
9 ]% [2 k6 }! m) B& q