: G( f; I8 l, Z" M6 X; a. @* S ; m6 {3 z, A: j* k- Q2 K( R8. Bimpm ) F! r, f: B: `& r3 X1 l$ hBimpm可视为对之前各类交互型文本匹配模型的一次总结。 * H {& K7 H: E, R, N: L5 a& d) x8 ?+ F1 K ]
该模型在各层的具体做法总结如下:, L9 {9 S9 | B3 }( q: B
6 n4 F5 N) z$ m: a; r
(1)编码层采用BiLSTM得到每个token隐层的向量表示;$ E$ I/ p: M4 ^
7 v3 M! @5 u' k/ P8 ~- _, G0 _0 q0 }5 s(2)匹配层遵循 m k = c o s i n e ( W k ∗ v 1 , W k ∗ v 2 ) m_k=cosine(W_k*v_1,W_k*v_2) m 0 Y( R+ Y6 z# O% P* O
k 1 U7 k8 U% a. i$ M + i0 h B+ x V5 y
=cosine(W 8 {3 M+ E$ g. r
k/ p0 x3 X% p7 ^
- w$ _0 R1 ?9 t- ~" \' n- }
∗v 3 f8 C! ]' T, j6 {* `1 $ V- D8 ^. C2 n7 I, a1 k , Q* z }. n( ]: J) B
,W o; v; [7 `/ U7 u* \- S) B$ A! M6 I3 x
k& e7 t$ ?9 s. f2 S
. |4 W+ A. P. C- s) v6 H ∗v " ^0 g/ ^& f+ x1 ?2 l0 n
2* X' y6 G. O) L8 D0 c
, r u+ Y& `$ C- x. `! l )的方式可以得到两个文本的任意token pair之间在第k个view下的匹配关系,至于 v 1 v_1 v ; y9 g; y9 R* H: } r3 k
1% u7 f2 y8 Z: _' _0 \
! R; h7 r/ e4 K! h 和 v 2 v_2 v i3 e4 }5 Y1 E8 `2" G& f+ g3 H. t7 f& O: g: ]* R
% ?' ?; g: X) d 如何取,文章提供了4种策略: : M4 K" {6 s8 C+ ~, q; C - e+ t6 Q# F: v- x) ^- Y+ Y策略一:其中一个句子取各token隐层的向量表示,另一个句子采用隐层最后时间步处的输出; + ^' U' M7 a: t8 s- u策略二:其中一个句子取各token隐层的向量表示,另一个句子采用隐层各时间步输出与之匹配后取再取Max-Pooling值; ' i. g, q6 w# P6 k4 S策略三:其中一个句子取各token隐层的向量表示,另一个句子采用cross-attentive后得到的加权句子向量;0 D" X! i0 m @* k9 W% {" u
策略四:其中一个句子取各token隐层的向量表示,另一个句子采用cross-attentive后attention score最高处token的向量作为句子向量。: ~2 |' Z0 `2 L- e
这四种策略的区别在于对句子向量的计算不同。/ ?8 {7 c, B/ E4 `' q# {' h
/ S; [0 n; G$ i) ]2 Y/ @ F6 R6 T7 m% U% ^7 x1 t
(3)聚合层,首先对上面各种策略得到的输出层再通过一层BiLSTM层,然后将各策略下最后时间步的输出进行拼接,得到最后的聚合向量; 9 W2 F* @1 G' X8 h, P8 E }- s0 b* a) Q/ {. k: B8 _4 M( ~- F
(4)预测层:两层MPL+softmax 3 \/ K# h! Z' f" s" C. o* v# X, Z- Y% L! A5 d5 P
9. HCAN + Q/ U7 T, D' M& ?4 RHCAN是除Bert类模型外在文本匹配领域表现最为优异的深度模型之一,其采用了较为复杂的模型结构。 . f% v' U6 O- G% Z" l9 n5 ~) ^ 2 J9 h! u! Q+ [1 K0 C$ j$ G I3 g针对于信息抽取问题,文章首先分析了相关性匹配和语义匹配的差异: ' M6 i) w0 K3 s9 y% _' p# E. ^ m6 I* b* W" W. A$ O/ {/ v0 K
(1)相关性匹配主要关注于关键词的对比,因此更关注低层级词法、语法结构层面的匹配性;& L) ~# |) q' `. z3 y
$ d- G! p1 c2 {; {& E! V
(2)语义匹配代表着文本的平均意义,因此其关注更高、更丑想的语义层面的匹配性。 0 g7 ?+ O- R; C; X7 B4 o) @2 C f
该模型首先采用三类混合的编码器对query和context进行编码:9 c1 i2 j) p9 J9 `0 }1 @& F$ E4 E
4 j0 Q6 z+ i; f) K' a(1)深层相同卷积核大小的CNN编码器;( d+ Z+ ~4 _! Q( P) p
( C5 w: s$ q9 E
(2)不同卷积核大小的CNN编码器的并行编码; " E+ S. S1 V; ~1 \! U4 `4 u* `1 q3 C; y
(3)沿着时序方向的stacked BiLSTM编码;4 h( Z {% m# T1 j
2 ]6 Q ~8 E1 b+ ]* r$ W1 y
对于前两者,通过控制卷积核的大小可以更好的捕捉词法和句法特征,即符合相关性匹配的目的;而对于后者,其能表征更长距离的文本意义,满足语义匹配的目的。, y- a, d9 k3 O5 g
$ q6 \% R N9 [在这三类编码器的编码结果基础上,模型分别进行了相关性匹配和语义匹配操作。其中相关性匹配主要采用各phrase间内积+max pooling/mean pooling的方式获取相关性特征,并通过IDF指进行各phrase的权重调整。而在语义匹配中,模型采用了精心设计的co-attention机制,并最终通过BiLSTM层输出结果。( V3 m" \. z! O, A+ e
0 }0 D8 U; Y- c9 I10. 小结 5 [7 E6 Z9 L8 X# o K. O1 i交互型语言匹配模型由于引入各种花式attention,其模型的精细度和复杂度普遍强于表示型语言模型。交互型语言匹配模型通过尽早让文本进行交互(可以发生在Embedding和/或Encoding之后)实现了词法、句法层面信息的匹配,因此其效果也普遍较表示型语言模型更好。 8 X- H4 j' Z$ |( I( t! J/ f& i* T) X; w2 t9 w
【Reference】 ' |% O3 `0 n) I' Q; F# k" M- @# l3 [7 F( ~7 q
ARC-II: Convolutional Neural Network Architectures for Matching Natural Language Sentences # Y7 w: U- y) M9 X! w1 e A, t" S: P9 K! g) x5 }. w( a, E
PairCNN: Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks9 A% T6 V8 G5 t) `/ ^% R3 Y, |3 g
3 m3 I9 V* X* c. x! @
MatchPyramid: Text Matching as Image Recognition ( O; s2 d2 T3 h4 L* M+ l% k' s! o , v- O. T7 k1 i: _ BDecAtt: A Decomposable Attention Model for Natural Language Inference 6 z* u; Q: d- ] u1 U' M) v$ t . s% n+ G# G! s4 V7 \/ BCompAgg: A Compare-Aggregate Model for Matching Text Sequences; F$ W3 `) a$ j4 B2 P
1 g- P0 |8 a* |$ T
ABCNN: ABCNN: Attention-Based Convolutional Neural Network8 S+ d& `- ]) v+ I6 U u0 C/ m
for Modeling Sentence Pairs0 ?7 W) l2 Y4 `5 D1 X, D$ O
2 Q' w# S, d3 N) Y5 X: rESIM: Enhanced LSTM for Natural Language Inference ' W0 _% O/ ]3 r2 ] / d; u) G- x0 o K9 }Bimpm: Bilateral Multi-Perspective Matching for Natural Language Sentences8 r% Z( k% E. C" J6 }" ^7 i
& I( V- n# o! K% V4 a c% sHCAN: Bridging the Gap Between Relevance Matching and Semantic Matching ! w7 @ C$ u2 B( V, rfor Short Text Similarity Modeling " T/ I" }7 Q& O- M4 P1 e3 i8 n/ S- t! ?1 O. J6 |8 k
文本匹配相关方向打卡点总结(数据,场景,论文,开源工具)1 |& p8 Y$ a* y
( c. s# V. M! a5 B. C* z谈谈文本匹配和多轮检索2 v4 K3 y F3 H
' m. q) D" d/ ^* g贝壳找房【深度语义匹配模型 】原理篇一:表示型+ A) B. |3 v" Q: @2 o7 p7 I
———————————————— 8 e9 g- l! }4 b" a7 {版权声明:本文为CSDN博主「guofei_fly」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。: C6 h! s5 I! Y, ^, _" f% M; d
原文链接:https://blog.csdn.net/guofei_fly/article/details/107501276( w# N8 I; F9 Z* T% H/ Z: R