! R7 \+ g/ d% Y- l. f皮尔逊相似度衡量两个变量是不是同增同减,即两个变量的变化趋势是否一致。 7 v& a; ?4 z0 z% m8 }. i: a) a0 `3 Y7 h" E2 Y' C2 K) o
它不适合计算布尔值向量之间的相关度,适合处理评分的数据,且是稠密的数据,稀疏数据不适合。 6 `9 z7 B% D* |7 K/ @& ?! t. T1 A% B* L
当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:1 i3 i3 r2 u3 i) k7 ^ j
$ @) y9 f+ Q! J5 j) Z0 U) K
1)两个变量之间是线性关系,都是连续数据。 / k4 S3 b. |5 q2 L% @+ m, V 8 w7 v" _$ m! F2 P/ x1 z2)两个变量的总体是正态分布,或接近正态的单峰分布。 & X9 Z& N5 j. Y8 P1 `$ ~2 L% R( Q) o+ d9 F! U$ F7 J# [
3)两个变量的观测值是成对的,每对观测值之间相互独立。 $ G0 p y" y3 H+ i& X# \7 O 0 g j1 ~7 D. \3 q' W/ F4 g4、杰卡德相似系数' f: m J E, N& B9 p9 }3 L
Jaccard(杰卡德)相似性系数主要用于计算符号度量或布尔值度量的样本间的相似度。 9 c g/ i' W- Z* c5 E; {. C 8 u% Q* [7 Z! c- UJaccard(Jaccard similarity coefficient)相似系数等于样本集A和B交集的个数和样本集A和B并集个数的比值,在[0,1]之间,当两个样本完全一致时,结果为1,当两个样本完全不同时,结果为 0,用符号表示:/ ~( m, E& g. u# n" Q- O
$ h0 [: X. K! t. \) |
: K- Z; g0 c/ W1 r6 b4 b1 O% i7 a; p4 [5 \8 }; T
Jaccard(杰卡德)距离:与杰卡德相似系数相反,用两个集合中不同元素所占元素的比例来衡量两个集合(样本)的区分度。; x( i' t, [; ]; }: b. P0 F: c% h" K
4 r% A( f; z! S7 X0 k* F' y: j0 K, G' I- Q
/ ?0 \* A# K: h* L Y由于Jaccard相似系数主要用于计算符号度量或布尔值度量的个体间的相似度,无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。/ u2 W# W3 f }
/ a1 f6 V. B, o/ K2 P1 q5 r- XJaccard系数主要的应用场景有:4 l4 |) j c& B. }9 e
& ~; Z' I8 o" X7 M+ b7 }0 a5 x0 k
1)过滤相似度很高的新闻,或者网页去重;& z+ H1 T3 T- }, o; V& D
2 Q; }0 r+ n0 ?4 A$ o* u- C
2)考试防作弊系统; ! |. b* E1 w7 ~; X$ m2 P9 U8 M$ m& u
3)论文查重系统; $ j8 S) d2 \4 J+ h1 N: Y3 a# ~! U/ f1 ]* ?' ^0 f% G
如何选择相似度算法: . C0 e. B$ V. v4 m" X1)余弦相似度或者皮尔逊相关系数适合用户评分数据(实数值); & S, J1 S5 \) E+ N/ ?6 A ! n3 d4 O4 d6 z. Q% n% U" q2)杰卡德相似度适用于隐式反馈数据,如:0/1、布尔值、是否收藏(点击、加购物车等);' ^, ]: M( H1 u k
* B( n$ g' X' ?; x( @- }; e9 `; s" s
5、常用距离公式汇总 1 k4 P; ]( W% M3 D# D$ \: `% O明氏距离(Minkowski Distance)的推广:为曼哈顿距离,为欧氏距离,切比雪夫距离是明氏距离取极限的形式。1 M+ `: R f3 O& {0 T6 p# J
, [& E/ L2 N' k- J , b4 M- R: O' \/ P8 d+ Y. L: d% ^) k% K' ]/ x8 N: V' R
标准欧氏距离的思路:将各个维度的数据进行标准化:标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量的标准差,然后计算欧式距离,如下:: o7 @6 q. F2 C: C4 y
5 B( [1 g. e- K5 P' s4 G 7 D3 u p! f* e$ V$ v# z$ ~$ r( u A0 z+ p2 O6 w: R' @关注微信公众号【有梦想的程序星空】,了解软件系统和人工智能算法领域的前沿知识,让我们一起学习、一起进步吧! 3 X; p7 N3 s2 m. D: B0 c————————————————' n* ~( @8 N0 U9 A
版权声明:本文为CSDN博主「程序遇上智能星空」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。* A1 p7 x0 M% [( E h
原文链接:https://blog.csdn.net/kevinjin2011/article/details/125184542- ]0 J3 T+ O, o7 w
# U) ~ C0 d$ [6 Z: w
# n- |) H D- F' k