+ V; a6 Z9 u1 W& T9 Q# _6.2 ABCNN; M" Q2 e0 x" q" G. f
& }: I H7 r+ M/ k; \ABCNN-1直接将Attention机制作用于word embedding层,得到phrase 级的词向量表示。区别于CompAgg中的软注意力机制,ABCNN-1直接基于下式得到注意力矩阵: A i j = 1 1 + ∣ x i − y j ∣ A_{ij}=\frac{1}{1+|x_i-y_j|} A - }4 @: ?+ n! f: u% p
ij + S! L( r: t7 t8 @+ N L 1 N$ W$ d, x# H8 l8 `( Z = 3 k- p5 W( F% X$ }: L8 x4 T8 W1+∣x / Q' [3 h$ ~: v" R, `- i7 [i, u, T+ d) |. t' A/ l& R& W( T
( v, x \6 N+ K$ z
−y * e* N* v# p6 M. ~2 K
j 6 l9 Z1 v: L* B( l ~5 h. U ; R5 c! [; P$ n' o ∣ 4 B# O9 k+ C8 A* Y+ |1 ) Q6 J) J7 Y1 O3 u. [0 A: G 0 H) H* d5 E5 x1 h2 d ,然后分别乘以可学习的权重矩阵 W 0 W_0 W # z, y7 x& y) `% O8 v0 * y! |0 L) n e 4 G. i* L$ I& J- Q 和 W 1 W_1 W E7 g; b) H% `5 ^
1" e8 t1 j! y$ B; y" g9 j/ a
2 k' A2 L, {+ O1 ` 得到attetion feature map。. W/ g0 n; l4 [$ H: a: w8 k$ ~
- s$ d7 ?- h# [/ h0 m
6.3 ABCNN-27 r X8 B0 K* l5 e0 }$ Y
0 {$ u2 t. M9 o) ~# X
ABCNN-2将Attention机制作用于word embedding层后的反卷积层的输出结果,其中注意力矩阵的计算原理与ABCNN-1一致。然后将注意力矩阵沿着row和col的方向分别求和,分别代表着各文本token的attention socre;接着将反卷积层的输出结果与attention socre进行加权平均池化,得到与输入层相同shape的特征图。6 I G/ a) A9 k. c% D
+ x3 F/ e$ u' A! F* u. T
6.4 ABCNN-3: `! N- P! h9 s8 b3 r
3 B* F9 M3 W) b7 t! SABCNN-3的基本模块可视为ABCNN-1和ABCNN-2的堆叠,即在嵌入层和卷积层上面都引入了attention的机制用来增强对token向量的表示。 ) U# |3 w) m" V( Y; d 7 b) H( t$ i/ \7. ESIM : D" D5 P$ ?2 L2 C+ A: V+ BESIM模型基于NLI任务给出了一种强有力的交互型匹配方法。其采用了BiLSTM和Tree-LSTM分别对文本序列和文本解析树进行编码,其亮点在于:8 U4 \/ I% g& W
5 W( S1 C- |( L6 r, p
(1)匹配层定义了cross-attention得到各token的向量表示与原token向量间的详细交互关系,即采用 [ a ˉ , a ^ , a ˉ − a ^ , a ˉ ∗ a ^ ] [\bar a, \hat a,\bar a-\hat a,\bar a* \hat a] [ 1 G5 a7 A0 z8 {. w
a . g/ l" v) I2 t. {6 x* Eˉ' _: j' s9 n( N' c4 L/ S
, ' D; P, r! O, m) C" p, sa, `4 v# S2 `/ R, R
^ 6 _+ U4 g. ?5 w5 _* v1 G: k$ M$ Q3 f , ( }; d! E! V8 {4 x, D ]+ b2 Va 6 D/ V/ c: ` ?7 `- K0 E3 nˉ4 k3 Y) I3 d ]
− ' G! T4 p- [- a) A
a" K: h& M$ V- E" H4 I/ f6 s) \
^9 T! U5 K( y+ H8 P& s
, ' x- R! S2 r; @2 B3 M% k
a- o' t% ~: ?" t0 b& x8 i/ m" t
ˉ7 V% p& q( s0 P4 k
∗ 2 e3 b; K# _$ N: h
a % W) H! `! g! k^ ) e0 E) |0 X8 ?4 [$ f8 [. R, \- Y ]作为最终文本token的向量表示,这也成为后续文本匹配模型的惯用做法。$ C( G( G- M( O+ L
1 W* n' k, X/ }$ [
(2)聚合层通过BiLSTM得到各文本token的编码,从而进一步增强了文本序列的信息传递; : S" E' i9 ~# o: S : g( ]5 b! y4 U1 R9 E(3)预测层通过拼接各文本token编码的max-pooling和mean-pooling结果,再经过MPL进行匹配预测。 ) K# X5 M4 O. m8 X0 R$ O' J& f3 e $ N( c: Y7 {* L) E7 ?1 ?, p% F$ M" K) ]- Z2 y2 |
4 H+ \2 ~# ` A( `! u3 A
8. Bimpm" G9 F5 f/ v3 D" h% o
Bimpm可视为对之前各类交互型文本匹配模型的一次总结。 \: I" T9 ?# u5 l8 k. |8 r4 a1 z+ ]
$ I; a0 L7 r5 R( q. S5 k Y. N
该模型在各层的具体做法总结如下: 4 V& Y5 r+ t9 s' W1 r" O, y7 ]+ A1 T: j$ F& L: f0 P5 p! o/ O
(1)编码层采用BiLSTM得到每个token隐层的向量表示;3 N) a# t$ c* X; l! a1 L( P U
- w' | t! v! _+ Z* E! [(2)匹配层遵循 m k = c o s i n e ( W k ∗ v 1 , W k ∗ v 2 ) m_k=cosine(W_k*v_1,W_k*v_2) m 4 |2 l1 D& r+ B- X1 ~k7 K) j V: C5 f' r: {1 a$ z# |
; `: D) b) o# o# s$ x9 f9 R' m =cosine(W , h) `% }" R" d0 h1 f: ]* o
k, G5 C: @ a2 w: u, j: Y* P0 |0 m
5 n" W! x8 B% v2 X* }5 f
∗v / l6 K! F D4 P+ l1 1 G' q7 ^; v0 z; _# L ) s5 m: z4 ^7 G& V# Q ,W ) Y0 k. d% x' |k 5 R; L5 E/ O. {& \. D4 \ ! U8 n7 u/ h7 m% H$ \; n/ E ∗v ) @+ Y5 N) ~2 v, r! ]29 |; z% ^% s, W
O7 X+ d# c! S
)的方式可以得到两个文本的任意token pair之间在第k个view下的匹配关系,至于 v 1 v_1 v $ v" u( f* S. m' A
1" S) X# k* f5 Y# ]! S( n
0 L9 C. t% N& V 和 v 2 v_2 v 9 x* a, U' J. D$ _$ c! V+ q2 1 V: h. |8 C& f: K( K / M K0 a/ ^ u4 p" F4 q, m 如何取,文章提供了4种策略: 9 X: L- w x7 n; A4 j& o 9 e1 R z* G% ?+ |策略一:其中一个句子取各token隐层的向量表示,另一个句子采用隐层最后时间步处的输出;: N% w* m) O) X: R1 V. D% y
策略二:其中一个句子取各token隐层的向量表示,另一个句子采用隐层各时间步输出与之匹配后取再取Max-Pooling值;- ?7 Y& v" m% y: j8 s0 q
策略三:其中一个句子取各token隐层的向量表示,另一个句子采用cross-attentive后得到的加权句子向量; ) W- E/ Y5 i6 d2 L, {- r6 l策略四:其中一个句子取各token隐层的向量表示,另一个句子采用cross-attentive后attention score最高处token的向量作为句子向量。0 A8 v* n# y M/ m* p
这四种策略的区别在于对句子向量的计算不同。5 M; r" F2 W0 f, ^
' Y0 c d' }/ h+ s: l' Q: W/ A ! Y$ C: [0 Y- z5 }. s6 n3 A( y9 H(3)聚合层,首先对上面各种策略得到的输出层再通过一层BiLSTM层,然后将各策略下最后时间步的输出进行拼接,得到最后的聚合向量; * q. }. c' d/ r* L9 l8 j ^% I) l, |+ j' m" k% N+ y9 u$ n
(4)预测层:两层MPL+softmax & K4 o' h3 B7 C, z7 v' f* A! D0 m: ?
9. HCAN; \7 f0 m. c' G2 d4 }# s0 m
HCAN是除Bert类模型外在文本匹配领域表现最为优异的深度模型之一,其采用了较为复杂的模型结构。2 ?1 [8 x4 N2 Z8 y- b# z" d; N
* [& q# U- [6 W [, ~针对于信息抽取问题,文章首先分析了相关性匹配和语义匹配的差异: 4 B4 T# x2 e4 D t# f / [& m) T. x+ i. A/ F(1)相关性匹配主要关注于关键词的对比,因此更关注低层级词法、语法结构层面的匹配性; p: R" b# R# W3 W" h. J: y
/ _9 Q) f0 H _+ L$ O2 V
(2)语义匹配代表着文本的平均意义,因此其关注更高、更丑想的语义层面的匹配性。 ! O8 V y0 Y7 i: k9 ^' H7 T7 X" x
该模型首先采用三类混合的编码器对query和context进行编码:; z! s7 f( R" D% f0 }4 ?9 j, X" D
- W; F1 V( i" w(1)深层相同卷积核大小的CNN编码器;# p% D7 R; e+ V* a, R! l* Y# M
$ d: X4 N4 \) M9 X( r
(2)不同卷积核大小的CNN编码器的并行编码;6 r# \0 z O; h0 x$ a
t8 S- g, F! R- r! b* S$ @
(3)沿着时序方向的stacked BiLSTM编码; 0 z8 t- r. N/ m% [: Z8 r2 z4 R0 o- T3 l" I4 I1 ~4 i
对于前两者,通过控制卷积核的大小可以更好的捕捉词法和句法特征,即符合相关性匹配的目的;而对于后者,其能表征更长距离的文本意义,满足语义匹配的目的。 / s5 ]: e* T8 r N! g0 E V( {2 R2 ?) e3 b
在这三类编码器的编码结果基础上,模型分别进行了相关性匹配和语义匹配操作。其中相关性匹配主要采用各phrase间内积+max pooling/mean pooling的方式获取相关性特征,并通过IDF指进行各phrase的权重调整。而在语义匹配中,模型采用了精心设计的co-attention机制,并最终通过BiLSTM层输出结果。 9 o0 f' @# Q4 l4 U! } $ n4 A& p0 q/ x1 n' F, u5 p最后的预测层仍采用MPL+softmax进行预测。, S% ^8 |+ W' U7 _/ f
2 g8 [ u* q, o2 V10. 小结! D+ N+ ]# L# o! C' Q8 w9 n0 W
交互型语言匹配模型由于引入各种花式attention,其模型的精细度和复杂度普遍强于表示型语言模型。交互型语言匹配模型通过尽早让文本进行交互(可以发生在Embedding和/或Encoding之后)实现了词法、句法层面信息的匹配,因此其效果也普遍较表示型语言模型更好。 9 \9 J0 [3 z3 l! H! o: S8 o5 S9 t. q
【Reference】 8 {5 [1 k- C0 j) b- r s5 _ ; `2 w8 J3 K3 W8 O$ SARC-II: Convolutional Neural Network Architectures for Matching Natural Language Sentences * N" `$ g4 C6 u. a# }8 G7 w/ I2 g6 K9 ^& e: l
PairCNN: Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks, H$ ?; y& b# ~& m% z& d b
! P$ a2 d( H3 S( S7 J2 l% K3 C9 TMatchPyramid: Text Matching as Image Recognition0 R, w! l5 ]9 w/ S! K4 M
; ?# {$ i/ F6 x/ q4 L' ?/ _DecAtt: A Decomposable Attention Model for Natural Language Inference ) I8 k! T/ t/ u6 `* F) `, E; y7 t# P* A( j1 d7 t, c
CompAgg: A Compare-Aggregate Model for Matching Text Sequences- p# Y8 Y9 C9 X1 C8 k& }% a& ]/ E
8 r6 m S8 o! a7 W6 cABCNN: ABCNN: Attention-Based Convolutional Neural Network3 f% @9 ?( @7 g9 i4 O# m
for Modeling Sentence Pairs% C( Q& n) a5 p
2 t8 ?1 I* l w# F5 W9 nESIM: Enhanced LSTM for Natural Language Inference: a* \* P+ o" W
e6 B1 g1 H% S; h6 KBimpm: Bilateral Multi-Perspective Matching for Natural Language Sentences# q' w* U) `& Q" M* \7 b* _+ X
- ]& H+ O6 I) }& N, y4 x1 S% c
HCAN: Bridging the Gap Between Relevance Matching and Semantic Matching # t9 Z! d; Z$ k3 H- ^! F# C+ qfor Short Text Similarity Modeling - C! }& U5 H2 J& B ( t( _0 N. Q! q/ e% l4 b文本匹配相关方向打卡点总结(数据,场景,论文,开源工具)8 j1 p; o( M1 `
9 N( f$ r: g) @* O
谈谈文本匹配和多轮检索6 J% Q* |5 x" f3 {0 R6 [$ l" p) V
x% G7 J+ _( k0 H9 E
贝壳找房【深度语义匹配模型 】原理篇一:表示型- B' S# b" y' X6 w0 C
————————————————( q, d" g% g# p; g! T/ f; _
版权声明:本文为CSDN博主「guofei_fly」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 & G5 Q, q. w" |$ z1 q8 ?原文链接:https://blog.csdn.net/guofei_fly/article/details/107501276 " G) {$ |* @5 g/ W, A: l; n. X