数学建模社区-数学中国
标题:
极限多标签分类-评价指标
[打印本页]
作者:
杨利霞
时间:
2022-9-12 18:42
标题:
极限多标签分类-评价指标
R# O$ S+ Y1 C7 y* D/ M
极限多标签分类-评价指标
4 w d/ k5 @ O% \' \( T! Q' ?+ c
1 C$ y0 r: s3 l% n% g: H% s
极限多标签分类-评价指标
3 U/ C5 b1 J1 X4 S9 j
References:
8 ^, Q& i0 ~0 J" E
http://manikvarma.org/downloads/XC/XMLRepository.html
5 z; M& N0 L3 v& C
https://blog.csdn.net/minfanphd/article/details/126737848?spm=1001.2014.3001.5502
; |( V# C+ s, G8 g* @" F
https://en.wikipedia.org/wiki/Discounted_cumulative_gain
$ K: |5 v& Z5 S
2 a. S( s& h O: J- I5 _( ^ B
什么是极限多标签分类 (eXtreme multi-label Classification (XC))?
! J) _; n( l1 ^2 F
标签数非常多(Million),典型的就是BoW数据标签。
6 }! x: T4 V: o" {, V) r
极限多标签分类的典型应用:Image Caption(头大)。不过在Image Caption里面,Word之间存在序关系。XC可以看成是Image Caption的一个关键阶段,它能够选出与当前Image最相关的BoW。
/ a; `% F# o8 O* I O5 W
(上述都是靠过往经验吹的,近期没调研)。
6 e: h( d! R/ K/ y
) S3 F' |3 O) u& S
先来看一下评价指标:
9 J: G5 M8 U1 d$ b8 h5 r/ G5 X0 L
由于标签数非常多,且GroundTruth又非常小,因此通常意义上的分类精度、召回(多标签分类用macro或者micro的acc或者recall)等指标不work。
" h" q0 c/ @4 P) z: [
这些评价指标通常考虑了head/tail labels,也就是高频标签和低频标签;以及reciprocal pairs(互惠对)去除?
. g" D/ ?% |4 Q/ c: W, |
互惠对似乎?是指彼此相关的标签对,比如针对一个数据点,如果预测了标签A,如果标签B和A相关,那可以自然预测B。
/ c; ~2 t8 I8 G& J, y. v8 x
为了避免这种trival prediction, reciprocal pairs应该被去除。
8 b# o6 T4 u" I
! _* c! e* I, T
(1) Top-k kk Performance:
- u' S3 U( t* Q2 h
(Precision
@
k ) P @ k : = 1 k ∑ l ∈ rank k ( y ^ ) y l \text{(Precision@$k$)}\text{P}@k := \frac{1}{k}\sum_{l \in \text{rank}_k (\hat{\mathbf{y}})} \mathbf{y}_l
T' S2 @; }( J+ h9 }
(Precision@k)P@k:=
7 l/ w1 ^, `% {
k
, q( ?7 `) Y2 w! ]$ I& y
1
, N. M* i: O% R1 \( T7 {; x: e
" a; {. T+ k N
) k! M( b( n: K1 T9 \( h
l∈rank
9 f' _1 f( u$ I3 ]. w+ P# t- d
k
7 U3 ~! z" S" A( @" M
! |& f: P8 f% Y$ g
(
: a8 \9 o# q6 Z1 |1 D
y
: d% R- d, }1 x1 C
^
# V1 B5 u& [. g, X
" M% r7 M. }" Z6 o2 D
)
& H2 w# t; \! ?$ V$ e
∑
8 M& C! {7 l& L. T1 z3 c
0 V* v# e# x7 a* X9 D$ e
y
! n+ D5 b: S. }0 h2 X
l
; T$ U+ L2 F& o- F! b
, M+ X c Q# _5 i2 \
9 U& Q/ h; S& g, W/ N
2 [2 C5 {$ ^+ |2 ^. a4 @7 g
(Discounted Cumulative Gain (贴现累积收益))DCG @ k : = ∑ l ∈ rank k ( y ^ ) y l log ( l + 1 ) \text{(Discounted Cumulative Gain (贴现累积收益))} \text{DCG}@k := \sum_{l \in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{\log(l+1)}
5 S0 c- b9 `4 P! C; a
(Discounted Cumulative Gain (贴现累积收益))DCG@k:=
M( ]- F- ?$ a' F/ a' U2 ~
l∈rank
# X* x- K+ {! B I, d! c
k
z M) o! o1 ]
' f( |; [# ~" Y( R3 b& |
(
+ H7 m2 `* ^" M9 U' K, w6 o
y
4 h4 t6 G8 A+ }- m" G/ ?* K& s
^
* y# X* b( F; X5 f0 a$ L5 ~3 Q
( }/ u& t' \; q$ L& S7 E
)
4 R4 X+ i, Z. K# A, E" X
∑
& Z# t$ g) Z' @/ c! l9 ^3 k
- P" `+ a% Z9 z# Z5 g Y6 p
& m3 h1 @; O9 L! [! W) y% d
log(l+1)
: |9 Q7 _. V. }- j* v
y
1 D8 _( P7 i2 P0 r- W- H/ C0 T
l
1 w4 m$ V& S' ~8 p( v
& _' W, P! r% I) l8 D
3 i4 U7 |8 N: S& ~4 @+ {" b
6 ` x, @* O9 {2 y7 }0 `; C
, d" d, N* x+ N" Q/ W- V1 O
4 R0 C% P* x# C# r0 h [
(Normalized DCG)nDCG @ k : = DCG@ k ∑ l = 1 min ( k , ∣ ∣ y ∣ ∣ 0 ) 1 log ( l + 1 ) \text{(Normalized DCG)} \text{nDCG}@k := \frac{\text{DCG@$k$}}{\sum_{l=1}^{\min(k,||\mathbf{y}||_0)} \frac{1}{\log(l+1)}}
& V& z( _, c9 p/ r3 m
(Normalized DCG)nDCG@k:=
% I, S' i6 x0 H% g. {4 `
∑
' L, y% u/ L2 U# M% S6 I2 f
l=1
3 b+ v% \8 ~/ Y K0 t
min(k,∣∣y∣∣
- A$ i) i: k' \0 f$ v4 ]1 S
0
& a# M* P5 j8 s ?3 H
+ o% ~7 Y) |9 Q; F ~
)
; t$ A9 v+ y8 k4 B
3 e5 Z6 q3 x9 u0 g" R: H" p
6 z* K4 r, [% I; \1 v8 x
log(l+1)
" Y. e9 e" k* A! [
1
: G3 H4 [1 ^: H( t
. g2 V9 T# n8 W. `- d
8 @# E% K: ]7 C* f9 T- t& ?
DCG@k
; U1 s/ c% e0 p, M+ H2 ]
- _( j, F- U# D3 j. ]1 v
" R8 a* N: U5 I* T9 d4 K7 l
/ a: C' ^6 j+ m7 g0 t! `4 G; z& `
rank k ( y ) \text{rank}_k(\mathbf{y})rank
# |: y8 C5 e" [
k
0 X# p6 M5 ]6 r' M3 U. v+ O( {' Z
e/ K# t: f: ^) K2 X& X: Q
(y)为逆序排列y \mathbf{y}y的前k个下标。Note: DCG公式里的分母实际上不是l,而是from 1 to k.
! Y6 t- [; K Q' r9 y: \
( t, A/ c4 H! ~ c1 W7 |$ Y
靠后的标签按照对数比例地减小,说白了就是加权。至于为什么用log?两个事实:1. 平滑缩减; 2. Wang等人提供了理论支撑说明了log缩减方式的合理性。The authors show that for every pair of substantially different ranking functions, the nDCG can decide which one is better in a consistent manner. (看不懂,暂时不管)
9 ?( e5 x g8 d9 @8 l) p+ c5 D
7 {+ ?& ^! O0 } h4 `6 G: t6 B0 I
(2) Top-k kk Propensity-score:
9 K* ]1 @& E& C* l) C
- T3 H( G- D2 a; [
有些数据集包含一些频度很高的标签(通常称之为head labels),可以通过简单地重复预测头部标签来实现高的P @ k \text{P}@kP@k。Propensity-score可以检查这种微不足道的行为。
; t& v/ v7 Z. J4 d# M
( Propensity-score Precision ) PSP @ k : = 1 k ∑ l ∈ rank k ( y ^ ) y l p l (\text{Propensity-score Precision}) \text{ PSP}@k := \frac{1}{k} \sum_{l\in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{p_l}
( O3 H- h. D {/ W9 k( S& g
(Propensity-score Precision) PSP@k:=
6 ]+ ]/ L% Q% u7 n. a5 u5 |0 g
k
. T- H" C( q5 m+ Q( V
1
$ S" S8 B$ ~# {) @, x6 M I
1 u5 l) \# ?3 A) h, K" y$ E
: s6 A8 A4 a) S4 c5 q2 T- ^
l∈rank
9 h9 l1 z" ~$ j; v
k
' R. z9 {$ V. B, w) A `
* d6 J6 f0 V! w- x$ F) Q
(
8 e! ?0 H2 @" X
y
% G: q4 \' U' {) M A
^
1 a X- z7 |( I F' o7 x
" J i3 q' R' d. k
)
+ O7 E3 [; n: H5 C
∑
2 q$ X/ H1 Y; q' e
0 d) G. T, o5 a" A. z* z
7 i; g- K. N2 G7 K4 \8 z t. L, g
p
# ?( G3 b5 f- [- W# m
l
- C$ D* T$ W% w$ w( C7 ^1 T% v" u
4 P* r, |) b; F0 k# _
. a2 x8 K: h( ~9 e" e5 h) A3 e
y
( g, b* @' U8 b. _$ f* x; v
l
, v- w( C3 p; I
9 q7 {0 J: d8 Q L
2 J9 V$ b2 g& {7 J/ o' ?
C e8 k6 Z/ O3 e+ y6 d, H% U3 c1 I
" u& A! j0 ?1 M" I% R8 x
9 G3 I% f/ L( I9 K
PSDCG @ k : = ∑ l ∈ rank k ( y ^ ) y l p l log ( l + 1 ) \text{PSDCG}@k := \sum_{l \in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{p_l\log(l+1)}
' A* h0 e, |! d6 s% r8 _
PSDCG@k:=
" h# g( J0 u( X5 b
l∈rank
; a2 ?+ E; [& n7 I) G
k
3 T6 A; v' x; w
9 R- J8 h; @9 k: g7 ~
(
' E k8 Q* Q+ ~
y
$ }" N- \$ s' A) K' G' a4 @& V
^
# {' I" {. e' P5 F: Z+ P
7 G9 I! U$ ^- V; u0 z- _
)
3 A- ^' x) r1 {7 @" M1 O
∑
* E1 J1 [: V: l1 I
- F. P+ ]( n. u. e' @! t5 g1 ^0 X; {
2 E O" f- O& R: c- o) W/ L& P
p
% M2 f& y( i1 N5 f# j& y
l
2 x* P5 T) M' ]$ V; ?& ^6 W
. C; t1 V; ?, c. w% Z* q+ ^, H
log(l+1)
0 j- F: c$ B* b8 L6 n" s7 C
y
( Y d. {# }( e. f
l
1 \# l7 p- b1 R: F! E. K# O2 y
, V$ f: I* P- ]; U. ~
3 Q& E. R q( z! E
% a8 O( g( y. [; W5 _, m
6 x9 A. L p+ d' Z z6 Y( o
: E0 o. g; i$ u' O( Y. h' ], n
PSnDCG @ k : = PSDCG@ k ∑ l = 1 k 1 log ( l + 1 ) \text{PSnDCG}@k := \frac{\text{PSDCG@$k$}}{\sum_{l=1}^{k} \frac{1}{\log(l+1)}}
J# u0 L, X2 V3 Z% C* x
PSnDCG@k:=
Z. n4 U" Z! o' k4 g3 J
∑
: M! \! c9 D/ R7 K
l=1
: V. u0 W) f- z9 A
k
( f/ E# R p$ C" b1 D
! e5 d2 N7 J( X$ Q% e3 j' ^7 u
5 C% K# ?( u& f: F2 h
log(l+1)
3 ?2 {: g, g6 q) e5 a1 }
1
& ~$ E( K1 l0 g4 b
" |6 L- }6 C- R3 K
* A& Y% t% [3 p; \
PSDCG@k
+ j9 G9 y2 k% M7 k6 l
: b: O! V& {* v* p# O6 y$ @1 d3 C
/ V5 s7 \9 W/ X8 v5 f. D
, k1 s! ?: S, N, y$ ?- U
其中p l p_lp
7 p8 Z+ p/ f# v
l
8 l. Z; Y+ }) i1 g
" n9 ?/ L$ u: i" Y$ @2 V9 g! ~5 e
为标签l ll的propensity-score,使得这种度量在missing label方面无偏差(unbiased)。
* V1 E/ k. ]. L: z) ^
Propensity-score强调在tail labels上的表现,而对预测head labels提供微弱的奖励。
0 T! V, _# h! ~0 ] p- b" R; q
————————————————
M" s+ m- ^, f4 J( A7 |
版权声明:本文为CSDN博主「摆烂的-白兰地」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
0 S7 V% Z: ~, O1 t5 w
原文链接:https://blog.csdn.net/wuyanxue/article/details/126805190
7 j) j/ u8 h% C: w5 N( _% B
7 L4 \" o% z4 l! U) q, b
. `9 }) s, D% f' u& v! ?& l
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5