基于文本和语音的双模态情感分析. x0 D/ C6 \8 [1 U+ b
J5 ^# X/ y( |' N( }; t" x! r
相似度算法主要任务是衡量对象之间的相似程度,是信息检索、推荐系统、数据挖掘等的一个基础性计算。现有的关于相似度计算的方法,基本上都是基于向量的,也即计算两个向量之间的距离,距离越近越相似。* p/ y1 n' f( O$ j
~, d4 J) e# o
1、欧式距离 ! v" t: d5 @% Y欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离),在二维和三维空间中的欧氏距离就是两点之间的实际距离。 c* p4 j! i: O: ?8 W _% G. Q& f: A* X
欧氏距离是最常用的距离计算公式,衡量的是多维空间中各个点之间的绝对距离,当数据很稠密并且连续时,这是一种很好的计算方式。 ; \1 K+ A `* E( {8 T* T. F2 S ( B O& K$ f0 y最初用于计算欧几里得空间中两个点的距离,假设是维空间的两个点,它们之间的欧几里得距离是: 4 R# I% s/ _$ a% q2 o8 M D8 j2 |7 M% h7 c4 q' J# H& D% @
" W n: I! o1 G6 L) ]8 D) ]5 u4 @+ m9 }, N* I
可以看出,当时,欧几里得距离就是平面上两个点的距离。当用欧几里得距离表示相似度,一般采用以下公式进行转换:距离越小,相似度越大。 $ J5 o: d* h P) x; m/ B' e! d: ^( @7 m) \/ I8 @+ f! u
* t9 d% E9 R( H0 t. {7 v; v
+ y* q4 H8 m5 X' \7 ^
范围在之间,值越大,说明越小,也就是距离越近,则相似度越大。+ E2 f3 q" `2 c5 ?- p' i) m8 B
7 J/ ?9 o- d, P. ~8 _欧式距离相似度算法需要保证各个维度指标在相同的刻度级别,比如对身高、体重两个单位不同的指标使用欧氏距离可能使结果失效。并且,欧氏距离适合比较稠密的矩阵。 - ]. L5 D$ x) t% Z A+ t& F6 P; n2 ?% |7 p
注意:欧氏距离不适用于布尔向量之间的计算。' B) P/ j8 l M. t
" C% y) k3 ]8 x) n3 R& r# o2、余弦相似度8 h, D; [, z$ [/ h% X; G3 f7 A
余弦相似度就是通过一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小。 7 o6 v& T _$ |1 h 8 A Y i/ w* K! o$ l6 R公式如下:* ~ d! n! [+ A6 n
" X) A1 C: z& f4 y! A: h: N$ X6 n% w8 _2 T
5 d7 R. j3 l$ _9 v) [+ S1 p
范围:,两向量越相似,向量夹角越小,余弦相似度越大;值为负时,两向量负相关。 0 e2 {% t( P) m% w, F/ e ! V& ]$ Z. W, C- a1 n6 }* E- g余弦距离使用两个向量夹角的余弦值作为衡量两个个体间差异的大小。3 C4 ~2 c! @6 i. b) P" n) L( y" g
: P3 i$ _1 t- {: s" f
相比欧氏距离,余弦距离更加注重两个向量在方向上的差异。/ ~% r9 r x- g% {6 V+ e
( `' v- L$ L8 e: d8 z
余弦相似度主要的应用场景有: + E8 z0 s2 S" y+ `6 ?- T, C4 i8 L5 |$ ~/ d3 [
1)推荐系统中的协同过滤; . P& J* T$ Q- p: }5 M- f 9 ^6 |$ C+ C' K6 c+ m1 [+ d% ^2)计算文本的相似性;$ f. {+ e$ U2 Q1 f8 \* q1 {9 j0 ]
( |3 {! v2 h a
欧式距离和余弦相似度的区别: ( d% v4 O; B9 }: o$ \" q0 x余弦相似度衡量的是维度间取值方向的一致性,注重维度之间的差异,不注重数值上的差异;, P. Q( G6 E+ A. L5 H
9 }, t/ o& _3 {
而欧氏距离度量的正是数值上的差异性。 ) L+ c3 ?% r. r$ S) A2 q1 t: r+ j' Y$ R
3、皮尔逊相关系数 8 M; j6 d8 ~. w+ k$ }! Q% L- i/ u皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度。假设有两个变量X,Y,则它们之间的相关系数为: ' q0 u+ M8 n' V [9 _1 O3 e* D B- S5 V- _, J4 @& V
* ?* r8 q9 Y+ Q# \, Z: E9 p1 P
8 \& B d* o. t5 X O
皮尔森相关系数是衡量线性关联性的程度,p的一个几何解释是其代表两个变量的取值根据均值集中后构成的向量之间夹角的余弦。 ; J# `5 R* S! ?7 a( x. R- K% t; A! `, |9 y9 B# j9 a8 O
皮尔逊相似度计算结果在之间,-1表示负相关, 1表示正相关。 9 W6 F; E6 h& \; k) o: p2 k+ u K4 ?+ f. m: q o5 k
当相关系数为0时,X和Y两变量无关系。 2 p/ R/ K3 l1 M: b9 h" e; r L1 {! W* _/ \2 f, e, k当X的值增大(减小),Y值增大(减小),两个变量为正相关,反之,为负相关。; R; f% Q% V0 P
, i# }6 L3 D* J0 L. B6 W# c& J皮尔逊相似度衡量两个变量是不是同增同减,即两个变量的变化趋势是否一致。. I' z/ J- \1 n2 Q2 H/ s4 P
' T1 w* a2 M U8 t9 l它不适合计算布尔值向量之间的相关度,适合处理评分的数据,且是稠密的数据,稀疏数据不适合。 x+ q' s' r& O. D