数学建模社区-数学中国
标题:
极限多标签分类-评价指标
[打印本页]
作者:
杨利霞
时间:
2022-9-12 18:42
标题:
极限多标签分类-评价指标
* |* c' N! a* r* a
极限多标签分类-评价指标
0 u% c7 {$ b" [& s6 K* X% e
+ @3 W& ]3 Y! M# r4 P: L/ v& z
极限多标签分类-评价指标
+ A( o) D0 H) v) r1 A% r) H
References:
) p" S' y, @ @+ w+ a
http://manikvarma.org/downloads/XC/XMLRepository.html
6 Y, I) i0 f8 p( h. N
https://blog.csdn.net/minfanphd/article/details/126737848?spm=1001.2014.3001.5502
0 J" W6 P: n9 z8 r! l% ~ R3 {
https://en.wikipedia.org/wiki/Discounted_cumulative_gain
$ J: M0 ?* y: t) X( u/ m
3 g! ?' C" C0 u/ h/ h
什么是极限多标签分类 (eXtreme multi-label Classification (XC))?
7 C5 B' n5 D5 Z7 q8 m9 z8 V) H
标签数非常多(Million),典型的就是BoW数据标签。
2 d' p3 l) z% C5 q+ R2 o- R6 k9 ^4 j
极限多标签分类的典型应用:Image Caption(头大)。不过在Image Caption里面,Word之间存在序关系。XC可以看成是Image Caption的一个关键阶段,它能够选出与当前Image最相关的BoW。
3 Z; S. _5 M9 p) j0 \# K, e2 {
(上述都是靠过往经验吹的,近期没调研)。
* |$ M+ T& J5 J; D+ `( f- x) z+ |
9 [' x' P d4 ~! ~. O
先来看一下评价指标:
A6 r5 \% M5 b
由于标签数非常多,且GroundTruth又非常小,因此通常意义上的分类精度、召回(多标签分类用macro或者micro的acc或者recall)等指标不work。
9 O0 n7 C6 q0 J7 g4 a& o1 `
这些评价指标通常考虑了head/tail labels,也就是高频标签和低频标签;以及reciprocal pairs(互惠对)去除?
: V' C! ^ Q# r3 {" o6 I. A
互惠对似乎?是指彼此相关的标签对,比如针对一个数据点,如果预测了标签A,如果标签B和A相关,那可以自然预测B。
2 D5 ^/ t3 H# O/ N
为了避免这种trival prediction, reciprocal pairs应该被去除。
4 n( r" e5 f2 e G. R* T7 I. [6 l7 g
2 @7 \! k) d, ?, y
(1) Top-k kk Performance:
. X% P4 {' N' k0 R
(Precision
@
k ) P @ k : = 1 k ∑ l ∈ rank k ( y ^ ) y l \text{(Precision@$k$)}\text{P}@k := \frac{1}{k}\sum_{l \in \text{rank}_k (\hat{\mathbf{y}})} \mathbf{y}_l
8 p! t9 M" M: p6 \' @) H0 O
(Precision@k)P@k:=
- g* T! Y) b& k! J$ O' i3 ]7 X
k
- r! {7 n" `+ U" O0 D2 w v9 q8 z/ M
1
9 x. I. ]/ ^# u: a
7 H9 B! s6 [+ i3 \. B3 u
9 H8 g6 q1 `9 K5 R R! G
l∈rank
, W5 p6 g/ E# _. _( ^
k
$ ~) B. v( M1 w; ?$ d
: q1 i, l5 h9 p/ j8 T
(
" _$ `" Q& I1 T' t: r$ I1 }& }
y
2 M4 f2 i% A, L% j5 d6 A
^
2 B* i$ |( s9 W/ L A
X' E# s8 H+ } q) f' Y
)
0 c6 N- p/ ^, p( G/ [( B
∑
& b) {+ \: Y; }9 i2 S
; K J y% X: s
y
( o5 H. B5 \+ Y% z. G1 |
l
7 ]/ b2 g* i# B1 C
3 {( d& q. Y6 w& f, t: G' ^
0 U3 Y* i4 g; m
; U; k8 P+ ~& r" M6 i1 Q. U4 s( Y
(Discounted Cumulative Gain (贴现累积收益))DCG @ k : = ∑ l ∈ rank k ( y ^ ) y l log ( l + 1 ) \text{(Discounted Cumulative Gain (贴现累积收益))} \text{DCG}@k := \sum_{l \in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{\log(l+1)}
& X5 h1 [" r5 C# X. } Z7 H
(Discounted Cumulative Gain (贴现累积收益))DCG@k:=
. g7 f- Q, I% a8 Z ]7 P
l∈rank
, ^; g1 Q8 T1 k U
k
; D/ ^8 u" h% p: N7 I' E
4 q3 M4 Y: \* L* Y
(
% h' h& g' X) w$ d8 w7 ]
y
7 I5 E9 y# }6 u0 g5 n. S0 ] Q9 n
^
0 e ^- V$ {! K- F3 _
6 Z7 V; N7 M' g8 v% ?1 T8 B! E
)
* W2 D2 v' ~$ V+ u3 N5 D/ N
∑
. e8 S' V6 ^! d1 \; P P& m
: R& E" o) r) A, d. X
2 K0 v: t% u% A2 E
log(l+1)
& r4 \: t P- W; r$ x
y
6 j8 B. {$ o* h9 y$ p# F# j
l
5 v5 M& h- T$ S- g, a { Q) g- M
6 |" O- {! M7 z& m6 {% n* g5 [) m8 _% `
, a. ]/ @- @# @' { C" }' m
' I$ s9 f6 ^; D3 ? ?0 U
: {# l; V. |, _+ b1 F% K- w
1 R" _. X7 z( S% ?) j
(Normalized DCG)nDCG @ k : = DCG@ k ∑ l = 1 min ( k , ∣ ∣ y ∣ ∣ 0 ) 1 log ( l + 1 ) \text{(Normalized DCG)} \text{nDCG}@k := \frac{\text{DCG@$k$}}{\sum_{l=1}^{\min(k,||\mathbf{y}||_0)} \frac{1}{\log(l+1)}}
* _1 L+ H' v; Y1 q
(Normalized DCG)nDCG@k:=
' y9 J+ A, ]% F( M
∑
# X) o$ \- n6 h3 Q
l=1
. m8 j% W4 c- l
min(k,∣∣y∣∣
( X+ _1 t: w5 J, G0 L" V
0
+ [0 m' B& C+ I: D
/ x9 j5 y4 _ q: s) n8 r/ b
)
1 K- o8 m2 V7 j
( k; T% F3 r% L" ^0 O8 q
& R2 _" N. _2 g$ h3 A2 K
log(l+1)
+ N. H3 Q# S' t# i2 I
1
- P- ~7 A0 ^9 q- n; E9 q8 }8 {& k8 [
( K5 g4 Z! O+ r/ w6 s; f# d3 m
9 |! ^# w4 ]; L( P& g
DCG@k
3 s2 b7 f6 W) V `* x# A
* K" } w5 s$ Q. x6 m7 m" p
; Y3 [0 [' q7 j8 G! V3 G
% ^. f; ?* e! t: G
rank k ( y ) \text{rank}_k(\mathbf{y})rank
+ ]4 j! Z$ q2 U0 B8 s; e s- G
k
! z9 g% W! S) {/ T0 Q5 {$ k8 }
6 N4 q7 {# p0 K& `8 N; v
(y)为逆序排列y \mathbf{y}y的前k个下标。Note: DCG公式里的分母实际上不是l,而是from 1 to k.
?" H+ S( l* Q$ [5 T# B
( J: o# n( {( q& n
靠后的标签按照对数比例地减小,说白了就是加权。至于为什么用log?两个事实:1. 平滑缩减; 2. Wang等人提供了理论支撑说明了log缩减方式的合理性。The authors show that for every pair of substantially different ranking functions, the nDCG can decide which one is better in a consistent manner. (看不懂,暂时不管)
; ]( ]8 c4 N- N6 I4 a- V# p4 O
6 ^8 Q4 J0 a. }' l9 T6 L$ H6 Y
(2) Top-k kk Propensity-score:
8 b3 q; M( G* o. ^
4 X+ m3 `/ A! C& P9 W" A
有些数据集包含一些频度很高的标签(通常称之为head labels),可以通过简单地重复预测头部标签来实现高的P @ k \text{P}@kP@k。Propensity-score可以检查这种微不足道的行为。
9 \! A6 m$ j C) _
( Propensity-score Precision ) PSP @ k : = 1 k ∑ l ∈ rank k ( y ^ ) y l p l (\text{Propensity-score Precision}) \text{ PSP}@k := \frac{1}{k} \sum_{l\in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{p_l}
% A0 s# I E a" S3 w
(Propensity-score Precision) PSP@k:=
0 c7 c3 J' y' j* F
k
* a0 D$ x7 e8 m! |/ B7 s5 E, ]& h
1
8 `( \) K) |9 h# w4 T- Z3 }
9 @+ E' b" n7 \9 {, \% t4 M
" ]- P% U' y4 K! K
l∈rank
$ A' {/ k1 ~7 m! C
k
" P% W+ G+ D, x8 l* A7 S
7 N8 E5 D E9 y* Z6 M
(
* I; j3 G0 `6 P7 ], r2 h
y
, G9 l& E" w, O) t4 x6 n, m* s: i
^
; E% _- O7 C& U. t% c: @
5 k0 d1 @) ?& a/ R9 f, O
)
4 s: ` Y2 V: U) p+ A
∑
; z) g" g6 E, A
- Q4 n8 q" W. a6 K6 b9 `" F$ M E
- u( y4 Y% P" P* S- t0 D. m+ x# {
p
- O+ ^3 f$ ]7 w: L
l
/ p Z6 a* E8 [2 `
. G5 Z$ [. _' y e- }
0 Z9 n5 e6 K# p/ r
y
1 p9 d9 b- o0 J+ z: m% S! ?8 H
l
0 F1 ]/ v0 F/ |
2 H4 z" v$ r. Z8 h Q6 S e
: D3 F3 ]+ n( s v# N% c: ]5 N
6 c( R# y2 D! c( R0 r$ a/ R) L
$ F' l: m( t, G' y; y* h3 n
5 P6 Y4 k0 }; k% T. j% l! C
PSDCG @ k : = ∑ l ∈ rank k ( y ^ ) y l p l log ( l + 1 ) \text{PSDCG}@k := \sum_{l \in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{p_l\log(l+1)}
H) r; P/ U" j' S0 m$ }
PSDCG@k:=
6 S: t0 s2 o4 \: V% U+ ?
l∈rank
3 w; G& |# n* d0 C& e
k
1 A+ A7 t1 w' _, f7 l0 b ]9 T g% e
8 \4 t, W# U) ~6 h, ~2 U9 J
(
6 c/ v' F% v( D7 w, S6 H
y
0 y% c. _% B$ q- S
^
& ~, f/ m3 y8 N7 ] N9 P& L
$ b$ A/ s% m0 W
)
4 m8 W! Y( O. @3 y3 ?$ @+ |3 a% j* s2 P
∑
& ]( N0 j# P7 p4 R4 ?5 S1 n
; v7 j, k* t! c1 }1 z$ R e1 l
/ d; I4 K! y: P. E3 m p* |
p
+ ~5 H7 A! j1 a# x* [3 i- \
l
. d+ J2 `/ d* V5 O7 Y- I
3 `/ G& T' e# z1 M
log(l+1)
) v: I- q- W' U* e2 `
y
0 x( N$ R3 d6 p
l
3 ]2 w& \- x7 ^; }
; P1 C3 L0 `4 p2 @; Q, m$ X
3 \4 H& T) ?0 p& T/ B& z
8 I$ ?4 v' s+ q: Q
* @# C& U' S% U% S( L* c( Z
2 ] Y/ ^' a b9 {
PSnDCG @ k : = PSDCG@ k ∑ l = 1 k 1 log ( l + 1 ) \text{PSnDCG}@k := \frac{\text{PSDCG@$k$}}{\sum_{l=1}^{k} \frac{1}{\log(l+1)}}
( l& e6 p% x2 }6 ~
PSnDCG@k:=
* Z- w3 t( ?3 j# j. n a
∑
; w) T$ g5 Q6 [( u
l=1
& J/ s& w$ f F+ o* M, Y" t
k
" ], }7 T2 }4 G. s
7 T% R8 _2 b2 |0 @6 X# E
, S" V4 `. d5 ]- Y# f! {+ ` s& d
log(l+1)
4 m9 S, A! Y' X- U0 l. _8 v3 S
1
3 a; P# G; ?8 U5 ?, q
0 `" B, X$ I6 |8 I% f
, F) P* T; B. e* m. [$ t$ I
PSDCG@k
; `) G# j. ]6 ~- _
( h: D8 R4 S( f( D4 j
: w7 z: ~4 O& l& N; L! r# O0 Q
7 w3 F( S, ^, @7 i% }
其中p l p_lp
1 V$ \1 z) }0 u" d+ B4 w
l
9 G3 D9 A' l8 j) \* ]
4 ~ T( J. Z* N, W1 m' s
为标签l ll的propensity-score,使得这种度量在missing label方面无偏差(unbiased)。
# A# x( V+ j4 M2 {0 I, S
Propensity-score强调在tail labels上的表现,而对预测head labels提供微弱的奖励。
7 Y7 Q' H6 U' i( X
————————————————
/ ?: Y4 T5 |2 {" L
版权声明:本文为CSDN博主「摆烂的-白兰地」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
/ d9 y- z$ z/ i# f5 ?: Z2 ~
原文链接:https://blog.csdn.net/wuyanxue/article/details/126805190
. ]' X1 d( a) S% d1 }/ E
" S8 @5 m& v3 G- a) r+ `3 _5 H9 A1 w
& ^& @1 y) l: O8 S+ o- m
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5