5 X! d/ K2 ] I8 P9 X" kPairCNN的模型架构中的亮点在于各View向量的拼接,既能利用原始的语义向量,还能够很便捷的融入外部特征。) s, } H2 j& e7 z- X7 C$ `0 {- H
; d" I9 O6 ]4 x: m& W' `( Y
3. MatchPyramid f$ p. Z$ U0 B4 h( a r, d2 F. q无论是ARC-II中的n-gram拼接+1D conv还是Pair-CNN中的中间Matrix虽然均通过运算最终达到了信息交互的作用,但其定义还不够显式和明确,MatchPyramid借鉴图像卷积网络的思想,更加显式的定义了细粒度交互的过程。8 j+ E. }, M7 Y% H9 J2 W
MatchPyramid通过两文本各token embedding间的直接交互构造出匹配矩阵,然后将其视为图片进行2D卷积和2D池化,最后Flatten接MLP计算得匹配分数。本文共提出了三种匹配矩阵的构造方式: ! f* ^+ N( l. f0 Z# |% s1 C2 L& S7 m9 H0 T
(1)Indicator:0-1型,即一样的token取1,否则取0;这种做法无法涵盖同义多词的情况; 3 B- P' ^- F0 Q; a3 k5 N3 v5 f7 T0 ^7 |$ B: p/ C
(2)Cosine:即词向量的夹角余弦; $ a, c/ M: Z g" H- {. I! i5 I4 g& H- k+ a( @- e) F4 H9 u
(3)Dot Product:即词向量的内积# F; u, s6 L/ A) e$ z% ]
( M" q2 f, b! |/ f: b) L# k* v* d
此外值得注意的是因为各个文本pair中句子长度的不一致,本文并没有采用padding到max-lenght的惯用做法,而是采用了更灵活的动态池化层,以保证MPL层参数个数的固定。 S, ~; @6 a2 `, d' a$ b
& g% p d/ R/ g4 I! g v! i4. DecAtt. `) S+ N7 Y1 M3 ?$ R4 j
DecAtt将注意力机制引入到交互型文本匹配模型中,从而得到各token信息交互后增强后的向量表征。4 i- l2 P# u6 C- W
6 N5 W6 x% g3 \: _6 O: L! s& n模型被概括为如下层级模块:. b5 U7 A% t; _0 o: z9 a
; m/ C4 \4 R$ T+ ~% I6 H( x6 {2 d
(1)Attend层:文章提供了两种注意力方案,分别为文本间的cross-attention,以及各文本内的intra-attention。具体而言,分别采用前向网络F和F_{intra}对文本token embedding进行编码,然后通过F(x)F(y)计算cross-attention的score,以及F_{intra}(x)F_{intra}(y)计算self-attention的score。然后利用softmax将attention score进行归一化,再对各token embedding进行加权平均,得到当前query token处的增强表征,最后与原始token embedding进行拼接计为attend后的最终embedding。7 g! r; Z, p, s) l; ]5 d
' T2 K! T# I. o$ w; _+ i+ C' g* b
(2)Compare层:将前序Attend层计算得到的最终embedding,喂入一个全连接层进行向量维度的压缩。0 K9 Y6 P. r$ G: K/ {4 L" f% z
! W0 L4 j1 i$ t, a, {" E(3)Aggregate层:将每个文本各token处压缩后的向量进行简单的求和,再拼接起来通过MPL得到最后的匹配得分。 ( y9 X6 V" {1 Q; @0 |2 B & B3 J8 A/ e' a- Z' q# T1 K/ H5. CompAgg5 O$ p H0 y. n) W! y; K8 ]
CompAgg详细对比了在文本间cross-attention得到的各token向量表征与原始token向量进行compare的各种方案。 - Z0 e1 l' h4 }5 T' |/ G3 ^( |+ k9 T. Z+ R
该模型的主要结构包括: * L' G7 k- U; `( _+ X, o: X" Y3 `& k7 @, M2 d
(1)reprocessing层:采用类似于LSTM/GRU的神经网络得到token的深层表示(图中的\bar a_i);4 h6 G# Z' v7 J6 `4 o" N
' W% W; a q3 | D/ @
(2)Attention层:利用软注意力机制计算文本间的cross-attention(与DecAtt相同),从而得到各token处交互后的向量表示(图中的h_i); ( r N; A3 k: g+ l" d8 q! y7 |% S2 ?$ r( I1 @
(3)Comparison层:通过各种网络结构或计算将\bar a_i和h_i计算求得各token的最终表征。$ v7 z& G3 r+ J- r1 K2 G1 K
( U6 L. D" M/ E(4)Aggregation层:利用CNN网络对Comparison层的输出进行计算,得到最后的匹配得分。 ; l. S: b. w! V, [- p) D $ b; L+ v s5 W. E$ ~ J$ g其中Comparison层的构造方式包括: # O6 W: ^% f5 M5 W2 H q' k# m, m o5 \. m: q, {( e% X
(1)矩阵乘法,类似于Pair-CNN中的中间Matrix8 P3 C6 S+ t- }$ z( G
0 ^+ b' n) U r& {" |6 s; y& J
(2)前向神经网络,即将\bar a_i和h_i进行拼接,然后利用输入FFN; 8 K! M- ?1 c5 W1 n' |- q2 m# o " ?$ U4 `, \* g H# u' H(3)分别计算cosine和欧式距离,然后拼接;2 ^5 d8 P$ e5 K' h
% t! d; l& x; {7 Z3 w【Reference】0 l; s& x9 b. r# F# p
; N) U/ n/ {1 v" b3 CARC-II: Convolutional Neural Network Architectures for Matching Natural Language Sentences4 A$ N% t6 [& p/ X7 h \
2 \3 g; s9 G& [7 m6 |7 @PairCNN: Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks I, b' S! K" u4 s. i6 } W
$ T' ~4 U( t `# z
MatchPyramid: Text Matching as Image Recognition . m0 {% B" v: \+ Q/ Z8 _/ Q. Z' F 5 E1 b7 Z7 d9 m: Q7 S5 yDecAtt: A Decomposable Attention Model for Natural Language Inference! ?3 o- @4 c: B% o8 e0 `
* r" c$ |7 w2 m% G, ~
CompAgg: A Compare-Aggregate Model for Matching Text Sequences T* e2 b; @* c+ M' X" r# x3 L' G. _2 W6 D1 B; V9 E2 S" I# X
ABCNN: ABCNN: Attention-Based Convolutional Neural Network# f$ X; y4 r6 c4 Q) [7 E
for Modeling Sentence Pairs& w# ^4 \5 \% ^7 a% z" O1 y
3 N9 Y- g! C8 ~( B4 H
ESIM: Enhanced LSTM for Natural Language Inference , h# S2 S8 Q/ Q" ^3 Y2 n# k5 n/ H
Bimpm: Bilateral Multi-Perspective Matching for Natural Language Sentences . ^/ K& @8 S* @& w K! b v6 j: u; g7 k
HCAN: Bridging the Gap Between Relevance Matching and Semantic Matching ! e1 N6 O. |6 O+ Xfor Short Text Similarity Modeling G( n* M2 U( V2 x
! o5 l3 G* Z: k$ D0 z& ~' F
文本匹配相关方向打卡点总结(数据,场景,论文,开源工具)) l4 s/ P, c; k0 o