数学建模社区-数学中国

标题: 极限多标签分类-评价指标 [打印本页]

作者: 杨利霞    时间: 2022-9-12 18:42
标题: 极限多标签分类-评价指标
  R# O$ S+ Y1 C7 y* D/ M
极限多标签分类-评价指标
4 w  d/ k5 @  O% \' \( T! Q' ?+ c1 C$ y0 r: s3 l% n% g: H% s
极限多标签分类-评价指标3 U/ C5 b1 J1 X4 S9 j
References:8 ^, Q& i0 ~0 J" E
http://manikvarma.org/downloads/XC/XMLRepository.html5 z; M& N0 L3 v& C
https://blog.csdn.net/minfanphd/article/details/126737848?spm=1001.2014.3001.5502
; |( V# C+ s, G8 g* @" Fhttps://en.wikipedia.org/wiki/Discounted_cumulative_gain
$ K: |5 v& Z5 S2 a. S( s& h  O: J- I5 _( ^  B
什么是极限多标签分类 (eXtreme multi-label Classification (XC))?
! J) _; n( l1 ^2 F标签数非常多(Million),典型的就是BoW数据标签。6 }! x: T4 V: o" {, V) r
极限多标签分类的典型应用:Image Caption(头大)。不过在Image Caption里面,Word之间存在序关系。XC可以看成是Image Caption的一个关键阶段,它能够选出与当前Image最相关的BoW。/ a; `% F# o8 O* I  O5 W
(上述都是靠过往经验吹的,近期没调研)。
6 e: h( d! R/ K/ y) S3 F' |3 O) u& S
先来看一下评价指标:9 J: G5 M8 U1 d$ b8 h5 r/ G5 X0 L
由于标签数非常多,且GroundTruth又非常小,因此通常意义上的分类精度、召回(多标签分类用macro或者micro的acc或者recall)等指标不work。" h" q0 c/ @4 P) z: [
这些评价指标通常考虑了head/tail labels,也就是高频标签和低频标签;以及reciprocal pairs(互惠对)去除?. g" D/ ?% |4 Q/ c: W, |
互惠对似乎?是指彼此相关的标签对,比如针对一个数据点,如果预测了标签A,如果标签B和A相关,那可以自然预测B。/ c; ~2 t8 I8 G& J, y. v8 x
为了避免这种trival prediction, reciprocal pairs应该被去除。
8 b# o6 T4 u" I! _* c! e* I, T
(1) Top-k kk Performance:- u' S3 U( t* Q2 h
(Precision@ k ) P @ k : = 1 k ∑ l ∈ rank k ( y ^ ) y l \text{(Precision@$k$)}\text{P}@k := \frac{1}{k}\sum_{l \in \text{rank}_k (\hat{\mathbf{y}})} \mathbf{y}_l
  T' S2 @; }( J+ h9 }(Precision@k)P@k:=
7 l/ w1 ^, `% {k, q( ?7 `) Y2 w! ]$ I& y
1, N. M* i: O% R1 \( T7 {; x: e

" a; {. T+ k  N
) k! M( b( n: K1 T9 \( hl∈rank
9 f' _1 f( u$ I3 ]. w+ P# t- dk
7 U3 ~! z" S" A( @" M
! |& f: P8 f% Y$ g (
: a8 \9 o# q6 Z1 |1 Dy
: d% R- d, }1 x1 C^# V1 B5 u& [. g, X

" M% r7 M. }" Z6 o2 D )& H2 w# t; \! ?$ V$ e

8 M& C! {7 l& L. T1 z3 c0 V* v# e# x7 a* X9 D$ e
y
! n+ D5 b: S. }0 h2 Xl
; T$ U+ L2 F& o- F! b, M+ X  c  Q# _5 i2 \
9 U& Q/ h; S& g, W/ N

2 [2 C5 {$ ^+ |2 ^. a4 @7 g(Discounted Cumulative Gain (贴现累积收益))DCG @ k : = ∑ l ∈ rank k ( y ^ ) y l log ⁡ ( l + 1 ) \text{(Discounted Cumulative Gain (贴现累积收益))} \text{DCG}@k := \sum_{l \in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{\log(l+1)}5 S0 c- b9 `4 P! C; a
(Discounted Cumulative Gain (贴现累积收益))DCG@k:=   M( ]- F- ?$ a' F/ a' U2 ~
l∈rank # X* x- K+ {! B  I, d! c
k
  z  M) o! o1 ]' f( |; [# ~" Y( R3 b& |
( + H7 m2 `* ^" M9 U' K, w6 o
y
4 h4 t6 G8 A+ }- m" G/ ?* K& s^
* y# X* b( F; X5 f0 a$ L5 ~3 Q
( }/ u& t' \; q$ L& S7 E )4 R4 X+ i, Z. K# A, E" X

& Z# t$ g) Z' @/ c! l9 ^3 k
- P" `+ a% Z9 z# Z5 g  Y6 p& m3 h1 @; O9 L! [! W) y% d
log(l+1): |9 Q7 _. V. }- j* v
y 1 D8 _( P7 i2 P0 r- W- H/ C0 T
l
1 w4 m$ V& S' ~8 p( v
& _' W, P! r% I) l8 D
3 i4 U7 |8 N: S& ~4 @+ {" b6 `  x, @* O9 {2 y7 }0 `; C

, d" d, N* x+ N" Q/ W- V1 O4 R0 C% P* x# C# r0 h  [
(Normalized DCG)nDCG @ k : = DCG@ k ∑ l = 1 min ⁡ ( k , ∣ ∣ y ∣ ∣ 0 ) 1 log ⁡ ( l + 1 ) \text{(Normalized DCG)} \text{nDCG}@k := \frac{\text{DCG@$k$}}{\sum_{l=1}^{\min(k,||\mathbf{y}||_0)} \frac{1}{\log(l+1)}}& V& z( _, c9 p/ r3 m
(Normalized DCG)nDCG@k:=
% I, S' i6 x0 H% g. {4 `' L, y% u/ L2 U# M% S6 I2 f
l=1
3 b+ v% \8 ~/ Y  K0 tmin(k,∣∣y∣∣ - A$ i) i: k' \0 f$ v4 ]1 S
0
& a# M* P5 j8 s  ?3 H+ o% ~7 Y) |9 Q; F  ~
)
; t$ A9 v+ y8 k4 B
3 e5 Z6 q3 x9 u0 g" R: H" p6 z* K4 r, [% I; \1 v8 x
log(l+1)" Y. e9 e" k* A! [
1: G3 H4 [1 ^: H( t

. g2 V9 T# n8 W. `- d
8 @# E% K: ]7 C* f9 T- t& ?DCG@k; U1 s/ c% e0 p, M+ H2 ]

- _( j, F- U# D3 j. ]1 v
" R8 a* N: U5 I* T9 d4 K7 l/ a: C' ^6 j+ m7 g0 t! `4 G; z& `
rank k ( y ) \text{rank}_k(\mathbf{y})rank # |: y8 C5 e" [
k0 X# p6 M5 ]6 r' M3 U. v+ O( {' Z
  e/ K# t: f: ^) K2 X& X: Q
(y)为逆序排列y \mathbf{y}y的前k个下标。Note: DCG公式里的分母实际上不是l,而是from 1 to k.! Y6 t- [; K  Q' r9 y: \

( t, A/ c4 H! ~  c1 W7 |$ Y靠后的标签按照对数比例地减小,说白了就是加权。至于为什么用log?两个事实:1. 平滑缩减; 2. Wang等人提供了理论支撑说明了log缩减方式的合理性。The authors show that for every pair of substantially different ranking functions, the nDCG can decide which one is better in a consistent manner. (看不懂,暂时不管)9 ?( e5 x  g8 d9 @8 l) p+ c5 D
7 {+ ?& ^! O0 }  h4 `6 G: t6 B0 I
(2) Top-k kk Propensity-score:
9 K* ]1 @& E& C* l) C
- T3 H( G- D2 a; [有些数据集包含一些频度很高的标签(通常称之为head labels),可以通过简单地重复预测头部标签来实现高的P @ k \text{P}@kP@k。Propensity-score可以检查这种微不足道的行为。
; t& v/ v7 Z. J4 d# M( Propensity-score Precision )  PSP @ k : = 1 k ∑ l ∈ rank k ( y ^ ) y l p l (\text{Propensity-score Precision}) \text{ PSP}@k := \frac{1}{k} \sum_{l\in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{p_l}
( O3 H- h. D  {/ W9 k( S& g(Propensity-score Precision) PSP@k:= 6 ]+ ]/ L% Q% u7 n. a5 u5 |0 g
k. T- H" C( q5 m+ Q( V
1$ S" S8 B$ ~# {) @, x6 M  I

1 u5 l) \# ?3 A) h, K" y$ E
: s6 A8 A4 a) S4 c5 q2 T- ^l∈rank 9 h9 l1 z" ~$ j; v
k
' R. z9 {$ V. B, w) A  `* d6 J6 f0 V! w- x$ F) Q
( 8 e! ?0 H2 @" X
y
% G: q4 \' U' {) M  A^1 a  X- z7 |( I  F' o7 x
" J  i3 q' R' d. k
)+ O7 E3 [; n: H5 C
2 q$ X/ H1 Y; q' e

0 d) G. T, o5 a" A. z* z
7 i; g- K. N2 G7 K4 \8 z  t. L, gp # ?( G3 b5 f- [- W# m
l
- C$ D* T$ W% w$ w( C7 ^1 T% v" u
4 P* r, |) b; F0 k# _
. a2 x8 K: h( ~9 e" e5 h) A3 ey
( g, b* @' U8 b. _$ f* x; vl, v- w( C3 p; I

9 q7 {0 J: d8 Q  L2 J9 V$ b2 g& {7 J/ o' ?
  C  e8 k6 Z/ O3 e+ y6 d, H% U3 c1 I
" u& A! j0 ?1 M" I% R8 x

9 G3 I% f/ L( I9 KPSDCG @ k : = ∑ l ∈ rank k ( y ^ ) y l p l log ⁡ ( l + 1 ) \text{PSDCG}@k := \sum_{l \in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{p_l\log(l+1)}' A* h0 e, |! d6 s% r8 _
PSDCG@k:=
" h# g( J0 u( X5 bl∈rank ; a2 ?+ E; [& n7 I) G
k
3 T6 A; v' x; w9 R- J8 h; @9 k: g7 ~
( ' E  k8 Q* Q+ ~
y
$ }" N- \$ s' A) K' G' a4 @& V^# {' I" {. e' P5 F: Z+ P

7 G9 I! U$ ^- V; u0 z- _ )3 A- ^' x) r1 {7 @" M1 O
* E1 J1 [: V: l1 I
- F. P+ ]( n. u. e' @! t5 g1 ^0 X; {

2 E  O" f- O& R: c- o) W/ L& Pp
% M2 f& y( i1 N5 f# j& yl
2 x* P5 T) M' ]$ V; ?& ^6 W. C; t1 V; ?, c. w% Z* q+ ^, H
log(l+1)0 j- F: c$ B* b8 L6 n" s7 C
y
( Y  d. {# }( e. fl1 \# l7 p- b1 R: F! E. K# O2 y

, V$ f: I* P- ]; U. ~3 Q& E. R  q( z! E
% a8 O( g( y. [; W5 _, m
6 x9 A. L  p+ d' Z  z6 Y( o
: E0 o. g; i$ u' O( Y. h' ], n
PSnDCG @ k : = PSDCG@ k ∑ l = 1 k 1 log ⁡ ( l + 1 ) \text{PSnDCG}@k := \frac{\text{PSDCG@$k$}}{\sum_{l=1}^{k} \frac{1}{\log(l+1)}}  J# u0 L, X2 V3 Z% C* x
PSnDCG@k:=
  Z. n4 U" Z! o' k4 g3 J
: M! \! c9 D/ R7 Kl=1: V. u0 W) f- z9 A
k
( f/ E# R  p$ C" b1 D! e5 d2 N7 J( X$ Q% e3 j' ^7 u

5 C% K# ?( u& f: F2 hlog(l+1)3 ?2 {: g, g6 q) e5 a1 }
1& ~$ E( K1 l0 g4 b

" |6 L- }6 C- R3 K
* A& Y% t% [3 p; \PSDCG@k
+ j9 G9 y2 k% M7 k6 l: b: O! V& {* v* p# O6 y$ @1 d3 C

/ V5 s7 \9 W/ X8 v5 f. D
, k1 s! ?: S, N, y$ ?- U其中p l p_lp 7 p8 Z+ p/ f# v
l8 l. Z; Y+ }) i1 g

" n9 ?/ L$ u: i" Y$ @2 V9 g! ~5 e 为标签l ll的propensity-score,使得这种度量在missing label方面无偏差(unbiased)。* V1 E/ k. ]. L: z) ^
Propensity-score强调在tail labels上的表现,而对预测head labels提供微弱的奖励。
0 T! V, _# h! ~0 ]  p- b" R; q————————————————
  M" s+ m- ^, f4 J( A7 |版权声明:本文为CSDN博主「摆烂的-白兰地」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
0 S7 V% Z: ~, O1 t5 w原文链接:https://blog.csdn.net/wuyanxue/article/details/126805190
7 j) j/ u8 h% C: w5 N( _% B
7 L4 \" o% z4 l! U) q, b. `9 }) s, D% f' u& v! ?& l





欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5