, H8 K- Q) o# ?! L9 t6 d+ ?' B极限多标签分类-评价指标 F; Y2 d# N) v; J {. }
0 H& a/ p1 V1 H; p: P4 n2 m9 O
极限多标签分类-评价指标: k7 V3 |1 Y5 M4 P1 [" t) b
References: 0 ~( j9 Z5 X# ~2 ~2 Ohttp://manikvarma.org/downloads/XC/XMLRepository.html; C0 J+ m1 m0 n" @- z
https://blog.csdn.net/minfanphd/article/details/126737848?spm=1001.2014.3001.5502 % m* m/ C$ j+ shttps://en.wikipedia.org/wiki/Discounted_cumulative_gain . l# D9 V6 C7 p5 Z 9 F$ y: i3 t8 P' w0 i什么是极限多标签分类 (eXtreme multi-label Classification (XC))?; ^& a+ t3 g2 ?1 K* Z' Z/ ~
标签数非常多(Million),典型的就是BoW数据标签。 . \. W5 i9 I. j6 X- U7 Q+ D极限多标签分类的典型应用:Image Caption(头大)。不过在Image Caption里面,Word之间存在序关系。XC可以看成是Image Caption的一个关键阶段,它能够选出与当前Image最相关的BoW。 3 c; D9 H: m4 A1 G' T- _/ o+ P(上述都是靠过往经验吹的,近期没调研)。 ' J: N5 f# |9 v9 S& A 2 Q! X0 l' {9 V0 t: ~: K5 ]" |0 m先来看一下评价指标:' A1 K6 V/ ~! `7 b
由于标签数非常多,且GroundTruth又非常小,因此通常意义上的分类精度、召回(多标签分类用macro或者micro的acc或者recall)等指标不work。. e j6 |% l% O# b- v9 A* D9 K" {
这些评价指标通常考虑了head/tail labels,也就是高频标签和低频标签;以及reciprocal pairs(互惠对)去除?9 S: s% ?) V6 k2 {
互惠对似乎?是指彼此相关的标签对,比如针对一个数据点,如果预测了标签A,如果标签B和A相关,那可以自然预测B。 ( m. @: G/ Q" @0 T5 m为了避免这种trival prediction, reciprocal pairs应该被去除。% u' W, s L9 |- b3 ~1 x1 m
: }+ g9 v) e5 }! \8 n% o
(1) Top-k kk Performance:1 Y% N& |( x& }3 w# u2 u$ t+ B( ^
(Precision@ k ) P @ k : = 1 k ∑ l ∈ rank k ( y ^ ) y l \text{(Precision@$k$)}\text{P}@k := \frac{1}{k}\sum_{l \in \text{rank}_k (\hat{\mathbf{y}})} \mathbf{y}_l " v# J: S* |5 O: J& H) l(Precision@k)P@k:= / ~6 _" x. @/ e6 C& Hk ' U1 x5 u% q! n1 z6 I. o5 V1: g6 ~" o; m* E- n0 c# |
t4 k& j/ t. a6 |, {/ {. F* V* E# _. j; e
l∈rank - {: a7 S, H& E/ r; G
k 0 q. K4 Q9 R! ^$ M , d6 Y. M8 K: U9 ?/ A; A ( & C1 p& T0 u/ [2 E) a1 C. x1 Ey: Z1 L% n; M+ P6 o2 v) M( `
^" C) b6 v0 e* H0 n$ n
7 Y" m3 Z1 X Z) w6 K' u/ x3 e; r )) ~+ a; A( r7 a; K( h
∑ 8 s' W5 [1 K. P& `8 U ! \; E/ @, N: S! ]5 E" C+ u, E y ( r0 m, }% {. E4 O" ^! r( v" I8 wl9 [2 h5 b, g+ ^
" Z$ j$ v. G* I& p( j
' K/ `% d* ]' f 2 }: x; A& I2 w4 t( L4 | I3 h* P(Discounted Cumulative Gain (贴现累积收益))DCG @ k : = ∑ l ∈ rank k ( y ^ ) y l log ( l + 1 ) \text{(Discounted Cumulative Gain (贴现累积收益))} \text{DCG}@k := \sum_{l \in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{\log(l+1)} / p$ C8 u/ Y; z4 h+ a" v(Discounted Cumulative Gain (贴现累积收益))DCG@k:= 4 ]7 }$ S+ e& D& k5 q( r; }# bl∈rank & l3 z' I2 w2 s% [4 pk8 S" @& z& R' p$ k
" p2 _$ g; x8 w5 N
( 1 A, y$ ?* H- g* j
y3 x; L, f$ U1 @4 g q$ E' B
^ ( c4 ~" Z/ P5 {: W+ |$ D5 H& V! O9 K/ ^3 l1 V; N- u
) 4 i# T/ s; _* }+ N( J8 I∑! L) J/ C0 b8 f+ |7 M' O
2 m. k9 A1 o! f2 N
: c1 ~7 A% q, ~, P: C Vlog(l+1)% P! o- h( B# S h- t+ F
y 5 l/ g5 Y4 l% E$ X6 f, e5 ?0 V. x$ h' L
l7 r( u0 |6 a( {# @ ~
' c6 c, M& ^0 |* |/ P/ x
) k$ B0 v+ L, g8 D- y3 a) u* A! i7 Y
% R5 `" P. U1 d& k. t
) |9 n+ b+ Z4 O& D
(Normalized DCG)nDCG @ k : = DCG@ k ∑ l = 1 min ( k , ∣ ∣ y ∣ ∣ 0 ) 1 log ( l + 1 ) \text{(Normalized DCG)} \text{nDCG}@k := \frac{\text{DCG@$k$}}{\sum_{l=1}^{\min(k,||\mathbf{y}||_0)} \frac{1}{\log(l+1)}} " E( h, d1 @5 h& e+ R" k7 B& j& n- ?(Normalized DCG)nDCG@k:= 8 U. J* j+ p: u }3 o: R
∑ . n J. ?" {+ G7 a& s
l=1 1 W B, b X$ }3 C4 @6 X* ?$ hmin(k,∣∣y∣∣ $ B; @# r" ~1 k. a: ?" ]
0 " S/ @- V* ` L! E" W1 R9 { $ [9 m. d C, t/ `/ S ) 5 Z7 w$ Q% h) P) ~ y& p" {/ b) L$ i a& p7 ]
1 P3 @5 b. k* nlog(l+1)1 A, {! L; W4 m4 C: v' N
1 " q" K: \* ~( u7 {1 R5 h # T6 W. T+ f) F& H H 9 k& d7 { D& H5 JDCG@k x5 K8 X* u3 L
: ~) {9 z7 w+ z- ?& @7 C
) L: Z) C9 Q; W; c6 g4 T. X' c% ~* ]# N! c+ Q, S8 H
rank k ( y ) \text{rank}_k(\mathbf{y})rank # `: S7 K8 F+ v8 {2 n( tk1 }. \7 G8 j$ d2 B9 U0 A6 r* z$ F: }
1 w; C1 X6 K& \0 _
(y)为逆序排列y \mathbf{y}y的前k个下标。Note: DCG公式里的分母实际上不是l,而是from 1 to k. " Y/ T2 j% W8 s0 a$ o# O X, G4 o K0 B& T- p8 s
靠后的标签按照对数比例地减小,说白了就是加权。至于为什么用log?两个事实:1. 平滑缩减; 2. Wang等人提供了理论支撑说明了log缩减方式的合理性。The authors show that for every pair of substantially different ranking functions, the nDCG can decide which one is better in a consistent manner. (看不懂,暂时不管)" N3 C- `& O& g3 X2 O' |, S8 K
) s3 f. i4 K b- \7 r" V
(2) Top-k kk Propensity-score:( T7 Q) k- }9 P
: l1 c Z# j% r( d& b2 P& E- t4 I8 q
有些数据集包含一些频度很高的标签(通常称之为head labels),可以通过简单地重复预测头部标签来实现高的P @ k \text{P}@kP@k。Propensity-score可以检查这种微不足道的行为。 5 q# |$ }$ c" n, g3 L( Propensity-score Precision ) PSP @ k : = 1 k ∑ l ∈ rank k ( y ^ ) y l p l (\text{Propensity-score Precision}) \text{ PSP}@k := \frac{1}{k} \sum_{l\in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{p_l} , R4 d2 ^5 X) _# z# M5 `(Propensity-score Precision) PSP@k:= & Q0 @( X2 p$ tk / A2 k3 @6 k$ f10 ]: G2 s6 Y$ ^# I6 z) V6 d5 A
- A, d. D1 U9 y4 x6 Z
+ C2 a$ @( b! l7 J+ g& zl∈rank $ N" h7 _- ^# c5 lk. X. j/ p" W8 g" {% R
/ k0 R# `1 w1 C9 {
( : L. k" ^, b9 x8 _
y 0 q/ m0 E# @8 Z* J^ * m- w6 a) w* F+ g. X' d) Y B) A& q/ _
) 6 a0 l. T* Y) Z O% ^- G∑& W3 I K4 u3 }, o5 M2 Y$ I
) H- B/ ^, F: f E. y. Y7 Q; z; q9 i% |# {
p ; p, ?- O8 O; h! Gl: z. o* L3 W3 W* q( s* k
7 `. ^& u8 l, }6 ~ O8 i; V/ J: K l
& I+ \' l# [1 P, n0 ~
y - D; o5 w; ]- m
l/ H5 L3 m) |. A: n+ }. p
3 `2 J3 P" Q8 O+ `! v# P9 o6 b" `( B, M8 P. U2 M9 n* `% E& w$ i
5 d# r2 e4 Y" \7 }) B% T2 `+ I# D: s4 P
4 o7 _ H8 H1 v$ i) F$ A- m
PSDCG @ k : = ∑ l ∈ rank k ( y ^ ) y l p l log ( l + 1 ) \text{PSDCG}@k := \sum_{l \in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{p_l\log(l+1)}" X" z) d" P2 [4 W6 ?# E
PSDCG@k:= 7 ?' P- ]. D8 l; Q8 K
l∈rank ( ]1 U/ ^, y, V1 i) E% T8 J* N
k4 V* S$ C- D5 S, Z$ }
8 h q6 o4 K( ?9 r ( 6 g3 N3 X) v" Q6 Z. F+ n0 G6 N7 xy 6 C$ n. C# J8 {3 @* u7 E, n^6 D" d( n4 b' [
7 p% |8 T, \) e) B- u
)6 v+ k+ t* O5 f1 ?2 p
∑* n& Y: Q& L) o* ]/ o. u5 s& X' L( Q
- u' K4 |: d4 ?. U1 |
* }7 i3 T6 V' _3 `! l
p 4 T5 X: D' U& A( \% @, nl 2 b* {4 k8 l' f# g6 [1 T, C * h0 i# v6 H( F8 R- D5 ^( p7 A) H log(l+1)8 V& ]% Y" w, o; i: d! D
y 0 w; @- k% [1 v5 `4 r# U/ C
l$ j- i) _. a! R4 C. m
" z$ i% x0 x- ?/ y$ d- C: J( W3 [- x, ~9 X0 M1 v, {
7 L2 P( P* O! O4 \# r
) x% Q5 i5 l" \# {
0 M. [! o: G) `) ?! `
PSnDCG @ k : = PSDCG@ k ∑ l = 1 k 1 log ( l + 1 ) \text{PSnDCG}@k := \frac{\text{PSDCG@$k$}}{\sum_{l=1}^{k} \frac{1}{\log(l+1)}}6 q3 l8 d6 I/ S
PSnDCG@k:= 0 B5 @% y% D. y# c6 `∑ + q3 ]8 X2 Y, I) t- d8 Xl=1 I% K# c; X% |- o9 |9 q/ B6 @
k # c& a; V5 `. C! I' V8 V' x: s& A8 _ p8 E
# p$ [4 t, o) u+ e
log(l+1) " Y0 ^: Q- e. ?2 l1 0 w! G& W2 U) h3 m8 O" _' S' i+ R3 w
+ n2 j7 t* `; d" _# i5 s6 ]" x: s$ I
PSDCG@k 9 S6 H5 B- v" \5 A1 {5 G* T( c; @+ s! C3 ~( [+ j1 L: u4 i3 r
% I5 L3 g. X! {: V0 t& }+ a5 r* p, K8 }. i" t& D. _/ d
其中p l p_lp 7 f- P, ?$ _( I& p5 O, z# Q. [ [6 Yl+ ~: z; y- j) S2 X
& D) }0 Q T }8 `9 A7 C% y
为标签l ll的propensity-score,使得这种度量在missing label方面无偏差(unbiased)。7 R5 W0 d3 @8 Z2 N7 r
Propensity-score强调在tail labels上的表现,而对预测head labels提供微弱的奖励。 % x( G9 a( ? k1 h# y———————————————— 8 t, |' J+ o! [6 i& b版权声明:本文为CSDN博主「摆烂的-白兰地」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 1 @4 _2 t! h* B7 _2 s. F4 p( o. f原文链接:https://blog.csdn.net/wuyanxue/article/details/126805190$ X* l3 V) m- i! J% [* o3 l, Z
) v2 z$ N, F% }5 U
6 W) [( |/ ]1 h, X m5 ]8 r