$ _ V D* W9 p* T* ~) o极限多标签分类-评价指标1 P9 t) ?2 D. O3 h, p
" A7 o. } N! N
极限多标签分类-评价指标 , q1 d( S, G& v3 `3 V! @7 x! CReferences:* F/ H) U2 h4 x8 h3 v
http://manikvarma.org/downloads/XC/XMLRepository.html+ u" p* H) p8 k) h9 m
https://blog.csdn.net/minfanphd/article/details/126737848?spm=1001.2014.3001.5502 ; F' e7 T8 O9 Z6 E/ {) m. z* L# mhttps://en.wikipedia.org/wiki/Discounted_cumulative_gain 4 x. g! A5 M( ]4 W4 z9 B 8 @% R' j6 v( s什么是极限多标签分类 (eXtreme multi-label Classification (XC))? 4 A- H" O8 D& M7 J/ I3 Y标签数非常多(Million),典型的就是BoW数据标签。) X% a( C$ \1 X0 i. E
极限多标签分类的典型应用:Image Caption(头大)。不过在Image Caption里面,Word之间存在序关系。XC可以看成是Image Caption的一个关键阶段,它能够选出与当前Image最相关的BoW。9 u8 M6 K) y& w' u
(上述都是靠过往经验吹的,近期没调研)。: F# D* H" g- O0 P6 _+ r
1 n: E4 ^7 ~2 @6 C
先来看一下评价指标:' J: O3 \" q Y
由于标签数非常多,且GroundTruth又非常小,因此通常意义上的分类精度、召回(多标签分类用macro或者micro的acc或者recall)等指标不work。, @: Q: F* P& g4 k0 L- b" O/ Z2 P
这些评价指标通常考虑了head/tail labels,也就是高频标签和低频标签;以及reciprocal pairs(互惠对)去除?! i6 m G) |3 y5 s, [
互惠对似乎?是指彼此相关的标签对,比如针对一个数据点,如果预测了标签A,如果标签B和A相关,那可以自然预测B。% k9 n4 ?" P: Q1 R
为了避免这种trival prediction, reciprocal pairs应该被去除。 ( ?3 J6 X% Z& ]( g: T7 M! f% Z6 u& b" x% E
(1) Top-k kk Performance:) R6 q: O, h* P3 Y4 F$ L
(Precision@ k ) P @ k : = 1 k ∑ l ∈ rank k ( y ^ ) y l \text{(Precision@$k$)}\text{P}@k := \frac{1}{k}\sum_{l \in \text{rank}_k (\hat{\mathbf{y}})} \mathbf{y}_l 9 `7 a! w/ F5 F(Precision@k)P@k:= # p2 E( z* ?/ H+ Q3 [: }2 p: e; a
k# R0 _' ~# B6 y( a: Y/ d
1 : Q) n8 D0 }* }- A4 O N8 r& G4 e% ^
1 O7 J8 D6 }1 {) `
l∈rank 4 H* t! Y* k5 V! ak + [# [# i# f& ^. e7 J' I9 n) M1 ~ . J7 d6 R" E# g! j) L. C$ C W ( ! C+ G& W0 I1 i2 E1 X* v D! w6 T/ ny 1 [/ x: s0 e j4 @^ : c6 W3 I6 V% S# q: v% ^ 3 X' s( U. ^( y2 ?# L+ s )& [8 _' W0 o4 }# U
∑ 6 u7 D$ ]" M/ s) U5 B \ y' ^/ J& }4 ]
y 0 k6 @: m6 t# Y0 ~+ N$ v
l0 ~* u+ p* L l* I
+ r F& a, M' Y. e
# I6 V- ^( n, U+ \' k0 V- O1 t& M8 G& d5 F) B+ d; k4 K' n0 I
(Discounted Cumulative Gain (贴现累积收益))DCG @ k : = ∑ l ∈ rank k ( y ^ ) y l log ( l + 1 ) \text{(Discounted Cumulative Gain (贴现累积收益))} \text{DCG}@k := \sum_{l \in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{\log(l+1)} % O/ e% t, E8 }9 P3 t n Z' _/ u ~(Discounted Cumulative Gain (贴现累积收益))DCG@k:= ' Q5 }! S! Y1 w+ B
l∈rank 4 V1 H9 x& m% ], q/ ^/ H( Ak 2 R9 Y3 j9 H- E4 }' \2 h; `7 k; u
( # ]' B5 g5 n' u3 z$ o9 m, py ; s$ ]$ f! H1 i) l6 a^ + W" M" }$ I# r. Z6 b3 c3 M8 C9 R' B# r
)4 O+ z0 T" Z1 U; ~9 U
∑( U7 C0 l+ f9 H$ q% A+ J8 \ z+ D
% j. i. R" } d7 V& U0 v/ M# P * y- |, p" K8 O3 \& ]log(l+1) ' p, \9 w6 w/ L/ J" k) q7 Iy - F9 q* Y' R% \l2 O$ a6 R( X. A# s$ g. W
' B R8 ^/ r) h4 k
2 \: r8 m- F) F* P/ Q7 N) g5 N: W/ j0 g2 S# l+ W
5 L1 a! w/ u0 h1 ?" U0 u# ]8 H+ g5 l$ e
(Normalized DCG)nDCG @ k : = DCG@ k ∑ l = 1 min ( k , ∣ ∣ y ∣ ∣ 0 ) 1 log ( l + 1 ) \text{(Normalized DCG)} \text{nDCG}@k := \frac{\text{DCG@$k$}}{\sum_{l=1}^{\min(k,||\mathbf{y}||_0)} \frac{1}{\log(l+1)}} 5 s: z1 ]0 {3 W* W(Normalized DCG)nDCG@k:= 7 m, c# b2 ~% [0 o5 R3 v0 d, n∑ 0 Z0 v, |0 w( `6 T$ [l=16 C; I: X* H( _0 o) G
min(k,∣∣y∣∣ 8 A# |; r2 U/ s# l% |0 1 W) u+ [( F' K& t' h( C * E) s" V# t6 q3 y y( }+ | )# T6 T2 S( F d8 p: G2 I
! f* p V+ s* b5 c% F6 a# x
5 b9 m I. T% l7 m0 U1 Elog(l+1). V' x9 U! z: p5 X" m: y0 d
1 5 z) k# ]. i1 f, y1 q1 H8 S) {0 n 8 h: P" v# N0 q- I3 o9 h' }3 O# \ 5 B7 p: w# ?( J( L/ [8 c2 n( D9 j2 bDCG@k6 n1 f4 V+ o# d4 I
* b# w5 F7 f" ]0 c" u/ q7 V( n9 `, n/ e/ m/ s0 g
, B8 B% x0 ?2 r! k7 ?: i7 a1 S0 L
rank k ( y ) \text{rank}_k(\mathbf{y})rank & `) L' v' V# _7 l' M) _: J0 e
k" a9 [% h% w4 H
# d4 B! a/ O" |+ d/ G3 p (y)为逆序排列y \mathbf{y}y的前k个下标。Note: DCG公式里的分母实际上不是l,而是from 1 to k.$ Y) x: L% V* ^3 h5 ~
# w( q; a, ?$ E! B靠后的标签按照对数比例地减小,说白了就是加权。至于为什么用log?两个事实:1. 平滑缩减; 2. Wang等人提供了理论支撑说明了log缩减方式的合理性。The authors show that for every pair of substantially different ranking functions, the nDCG can decide which one is better in a consistent manner. (看不懂,暂时不管) 5 R7 j/ l6 n; j v " z) [2 P0 X7 @9 @# h, \1 E4 f(2) Top-k kk Propensity-score: L( |* u6 n% f" P3 m
) w3 S; N& r* R: q/ k7 M% [# V5 F% p7 B有些数据集包含一些频度很高的标签(通常称之为head labels),可以通过简单地重复预测头部标签来实现高的P @ k \text{P}@kP@k。Propensity-score可以检查这种微不足道的行为。 ! E9 ]9 j7 I5 z ?( Propensity-score Precision ) PSP @ k : = 1 k ∑ l ∈ rank k ( y ^ ) y l p l (\text{Propensity-score Precision}) \text{ PSP}@k := \frac{1}{k} \sum_{l\in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{p_l}1 v: M2 J0 r1 u3 V3 O; d- O: k
(Propensity-score Precision) PSP@k:= ) C1 ]. Z7 V1 {" I+ E
k7 P- I/ _* V& Q
1 / g' o$ M! m) O, ?, g2 [0 D4 T 3 i- h) H' o3 a : J+ A1 L, \3 k7 |- L+ J4 x( j5 ml∈rank " h3 H" N5 \0 |4 \8 r
k & a V" Q, A+ v/ x9 H . P4 C) K$ X' h+ s) L5 p# d V ( 5 \, h( p6 e' G& l& |! \y I2 Z. l0 V& t% z& R
^ . q" P. d& ]9 ?# o: |: i2 _ 9 L4 o. `, B! y# |1 X) p' g$ F )0 e: m1 P, A6 R
∑ 6 C1 H5 S% K, _! B4 K 0 n% x4 _+ u' j+ j+ w8 U) w) g% {$ n# N* s9 ]* n
p 7 p+ `' P$ U' v# X0 {
l5 w5 y4 k3 X3 {6 i. q
e, Z; Z' y, H' k, V1 R ]. E4 R( h
% O* I4 K/ W) v
y 9 E+ \1 y; N% i* k! \: J
l 6 _+ o Z/ \0 t, l# Q, G$ U 1 w! j+ e$ {, I5 k: ^* E( A9 |' b, J4 l" @) Q' I7 {7 X3 L2 W
6 B2 d- z: ?" l0 r x , o+ U* q2 j, f7 |4 S. j3 E; V4 {+ l
PSDCG @ k : = ∑ l ∈ rank k ( y ^ ) y l p l log ( l + 1 ) \text{PSDCG}@k := \sum_{l \in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{p_l\log(l+1)}) b0 _, `8 ~- }7 G' @
PSDCG@k:= ) I* E# z7 d5 q+ G3 t8 R5 r
l∈rank 2 Y; R$ r6 o0 m" { e) W* p
k 0 k- n1 E7 R+ Y+ s0 V# l( D( }: h# n) D @# S j
( 4 {, [3 e) |/ C x
y% v: G; D2 t9 o9 R
^ / M' J, H4 |5 s/ u0 _4 ]6 F% s+ r4 u& d3 e5 `
): H) R6 f1 [' f$ A* f9 y
∑* m- z5 r( w+ A2 w. W& F! p0 `
) f9 ^! l7 P: m b3 [/ D* d U( c+ U, L( j" V _! @p & i8 C2 t u) t& h3 Y; dl ' [# ~' H; u* v# m6 M/ G& A. z6 T7 v6 ?6 R- N
log(l+1) # t) m/ f( @+ _2 ~3 { L; `% Xy + M, X1 O4 z0 e' ^
l / s7 Q3 ~& U% U& u; } + o4 V6 m: o& y$ @ P1 A% p Y0 S+ W& | E2 C) P+ K
# K' d2 l: m. {8 c
* r: A2 f( S3 i4 `0 ^' T6 [+ h1 ~
PSnDCG @ k : = PSDCG@ k ∑ l = 1 k 1 log ( l + 1 ) \text{PSnDCG}@k := \frac{\text{PSDCG@$k$}}{\sum_{l=1}^{k} \frac{1}{\log(l+1)}}7 y/ m' d& S/ u+ O
PSnDCG@k:= - M, r. Z5 r3 J4 O" k4 ^7 j∑ # N" `1 ], h2 ]8 j' Al=1 ( h! N3 j {! B3 D3 I5 E) f; Yk; m2 o0 @8 J0 {) j! \; M+ C0 O( C
+ w* Y% {7 v- ~1 P. ~( T" i2 p
$ A0 n3 {/ S/ h( f0 ?( H5 m! a
log(l+1) 8 g' d! J- ]9 ^) S5 P1% B6 Z, Y- c; \: Q1 A
$ s) y, L( ?! E. s / u. N/ B# Y# z. LPSDCG@k5 H0 P- K3 s: Q4 J. W
8 F4 u2 p% p7 W+ z' w
, w8 U$ y5 F6 |0 D2 R- W
; u. \3 B: q3 S, H# I1 u4 q
其中p l p_lp 4 W+ j6 w9 y1 \$ @l' M/ n3 V' H0 D8 c( I5 Z3 D
o: L4 Q, j" I 为标签l ll的propensity-score,使得这种度量在missing label方面无偏差(unbiased)。9 R5 h; y7 q! a+ {% S/ ]3 Y
Propensity-score强调在tail labels上的表现,而对预测head labels提供微弱的奖励。 ; g8 x* p! ^7 R2 P6 I8 l0 g———————————————— 4 n. p9 u* V. j- t% [; W6 e版权声明:本文为CSDN博主「摆烂的-白兰地」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 9 G0 l! _. B6 c4 Z p原文链接:https://blog.csdn.net/wuyanxue/article/details/126805190 + _' q- ~6 z7 ~& z- z3 D; Q! Z& n9 ]