1 @: J9 A- h# ?7 r$ x1. ARC-II1 d9 q$ U: \6 l4 `& E' F
ARC-II模型是和表示型模型ARC-I模型在同一篇论文中提出的姊妹模型,采用pair-wise ranking loss的目标函数。& L) t0 [% T# U: Z6 W9 E- _5 h
0 ~+ V+ ]" N$ R3 X9 i其核心结构为匹配层的设计: 5 c! N8 [! y2 g9 y- I1 B ) m4 ^# w3 W3 i4 E6 {5 _: H7 S6 Z6 B$ P(1)对文本pair的n-gram Embedding结果进行拼接,然后利用1-D CNN得到文本S_X中任一token i和文本S_Y中任一token j的交互张量元素M_{ij}。该操作既然考虑了n-gram滑动窗口对于local信息的捕捉,也通过拼接实现了文本pair间低层级的交互。 6 u- _! a$ c5 O( w6 w. ~6 k# k5 E1 q 5 n& Z( Z8 K! y8 w+ M; _/ p(2)对交互张量进行堆叠的global max-pooling和2D-CNN操作,从而扩大感受野。 9 q. ?! m7 d5 r" D) ^& Y- G. Z1 B6 E
2. PairCNN4 \" \) q- }& r$ w' `3 @; H
PairCNN并没有选择在Embedding后直接进行query-doc间的交互,而是首先通过TextCNN的方式分别得到query和doc的向量表征,然后通过一个中间Matrix对query和doc向量进行交互得到pair的相似度向量,然后将query的向量表征、doc的向量表征、相似度向量以及其它的特征向量进行拼接,最后经过两层的MPL得到最后的二分类向量。( q; H7 T; P& i
+ m, J5 C7 U: x' j, j$ B+ r, ^ j
PairCNN的模型架构中的亮点在于各View向量的拼接,既能利用原始的语义向量,还能够很便捷的融入外部特征。 ! c1 j" }" S/ M, x& } 3 m* v- h9 ~; U' t0 U4 X3. MatchPyramid$ y1 Q3 {1 h; d) D' V2 }8 G. S2 k
无论是ARC-II中的n-gram拼接+1D conv还是Pair-CNN中的中间Matrix虽然均通过运算最终达到了信息交互的作用,但其定义还不够显式和明确,MatchPyramid借鉴图像卷积网络的思想,更加显式的定义了细粒度交互的过程。" p( M/ C6 h X# p5 i! c+ T/ X
MatchPyramid通过两文本各token embedding间的直接交互构造出匹配矩阵,然后将其视为图片进行2D卷积和2D池化,最后Flatten接MLP计算得匹配分数。本文共提出了三种匹配矩阵的构造方式: & P: K1 S: V. F7 z8 z) i! P" }' ]: y+ N
(1)Indicator:0-1型,即一样的token取1,否则取0;这种做法无法涵盖同义多词的情况; P* D% M' u( f5 \4 x0 u/ @, a
% M- k3 R t7 @' `3 W9 H U(2)Cosine:即词向量的夹角余弦;7 N @6 S. D/ Y% `! n, j
9 q: ?- a2 o- J; P
(3)Dot Product:即词向量的内积 ) p. C u( k+ k& q7 a6 i- e* B % }2 t; C' |, w$ z5 l) M此外值得注意的是因为各个文本pair中句子长度的不一致,本文并没有采用padding到max-lenght的惯用做法,而是采用了更灵活的动态池化层,以保证MPL层参数个数的固定。* I1 t2 w& R$ r# M; ]1 b# e) f