1 ^* q L) O: x$ Q! A, PIntroduction 7 T9 j$ z' e q w, n7 B7 p / W5 x1 q# Y# U- E; U这一部分列了一些说话人识别的发展历史、背景的介绍# \# e# ]- o1 v7 u7 G- _$ |2 n
' H& F- h! F' l& `! G# b说话人识别结合i-vector发展的非常快,i-vector主要是把说话人表征在固定低维度的特征向量。9 ?( C v8 i% l3 ^% h* L! _4 k
深度学习用于speech中的特征提取。但是这和GMM-UBM模型对比的差别还是依赖于大量的语音数据。才能提出比较鲁棒、好的特征,但是语音的数据标注很麻烦、非常贵。 * l7 @8 w* E- P. V/ v近年来,DNNs可以独立于i-vector框架,单独提取说话人识别特征向量。这种方法取得更好的效果,特别是在短时间的话语条件下。如果文本相关(text-dependent)' r0 b! F1 z9 p" A
文本无关说话人认证中,加入了一个平均池化层使得输入不定长语音的帧级特征可以被整合为语句级别特征 }2 P9 F1 _9 X# W4 J& c注意力机制从一开始用于NLP,目前也在逐渐被应用到这个领域。( U! H7 y- T6 p; W' H) o4 v, W; A; G* Z
提出了一种新的池化方式,叫做注意力统计池化能够输出权重标准差、帧级特征的权重平均值,规避了上面3说到的DNN提特征方法往往对于短时语音效果的缺点,即也可以应用于长时语音。 , ~# s' C \5 }, n) G- r7 M. ~ , c" |7 I4 m$ g/ O9 c上图中首先是我们的音频会分成很多帧,由帧级特征提取器提出不同的帧,帧级特征进入池化层,池化层的作用就是把这些帧级特征平均,得到言语级的特征。再根据言语级的特征辨识出说话人的特征。- j! g- Z0 u* q. r. a" i% v7 v' E
3 c6 O2 C% z; z6 s5 {3 T& h/ T那么,是如何进行统计池化的呢?首先统计帧级特征的平均值如(1)式所示;计算基于帧级特征ht的标准差。; E2 d$ z3 \. r, ^6 f
# c$ g8 M) E" e, J; J5 L
注意力模型在原始的DNN,并且为帧级特征计算了大量分数et,其中v转置不知道?f(Wht+b)+k是一个激活函数。就像tanh或者ReLU等函数。2 }9 X. A! k; B
. z2 D; d# d! e: p, `" @接下来这个et通过softmax激活函数后,可以得到at。7 A" ~0 f/ W+ K' Y$ p3 y8 S
" D9 t% E- U) `4 o0 X7 I1 c8 d7 ~经过at ht的激活函数结果是平均值u ' G/ p' `% f- [. k- B! S * `% y! N( w! Q9 P* j5 Y3 h5 Y由此得到加权后的平均值和标准差9 X+ ~7 x. L. h* u: t. s
+ A* p6 ]$ ^ U I7 D. T. u! Q 3 B: q0 B, U2 E- k$ F1 ^ 7 i" n$ o; F( l0 [% z8 FEvaluation ' Q0 I4 X( Q5 [. l0 y h7 r 4 ~# E, |% a" l8 P5 |1 P" }下面采用了5种embedding的方法,测试NIST SRE2012 通用场景2; NIST SRE2012 说话时长; VoxCeleb共三种情况。 + W5 Z% w# l, y; _4 e4 Z4 o比较神奇的是i-vector经常作为一种baseline方案,居然有如此低的EER,文中给出的解释是NIST 2012数据集中的数据语音本身就比较长。 " H7 U$ R9 K) C- L ' b, Z% j4 \ n' f- j + f! z9 B6 X5 W: ]! d ^. c ' f9 }+ ~2 {/ D. A $ {: u) b4 W9 A. g% VConclusion% C5 h+ Q% y* E
; X/ U8 @2 C k$ `3 r& i
我们已经提出了注意力统计池化方式来提取deep speaker embedding,**池化层计算的是经过注意力机制作用的加权特征平均值、加权特征标准差。**这使得说话人其纳入能够focus重要的帧。不仅如此,长时间的偏差能够被说话人统计在标准差中。比如结合了注意力机制和标准差提供了协同效应。 , Y6 w# q4 w* k/ A: ]* M. E$ M: d" |4 Z, t
Paper2:Self-Attentive Speaker Embeddings for Text-Independent Speaker Verification: i$ Z; T/ o' _
0 q! q# v7 h( a% a0 PAbstract$ g7 D2 R8 I Q F) [3 [. i. w
& H, K* X7 ]2 H: D. o- M, [
这篇文章提出了一种文本无关场景说话人场景用DNN提取特征。通常,说话人嵌入是分类DNN平均了说话人帧上的隐藏向量;所有帧产生的隐藏向量被认为是同等重要的。我们反驳了这一假设,将说话人嵌入作为帧级隐藏向量的加权平均值进行计算。其权重是由自相关机制自动确定的。多个注意头对说话人输入语音不同方面的影响,最后,用PLDA分类器比较嵌入对。在NIST SRE 2016上,将提出的自相关说话人嵌入系统和强大的DNN嵌入baseline进行比较。我们发现,self-attentive的embedding具有卓越的性能,其改进对于长时、短时的语音都有不错的效果。( Y: Z4 ?1 H6 A: R. a' C% g