- 在线时间
- 699 小时
- 最后登录
- 2023-3-1
- 注册时间
- 2020-3-24
- 听众数
- 5
- 收听数
- 0
- 能力
- 0 分
- 体力
- 15404 点
- 威望
- 0 点
- 阅读权限
- 150
- 积分
- 5107
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 969
- 主题
- 953
- 精华
- 0
- 分享
- 0
- 好友
- 10
TA的每日心情 | 开心 2022-10-20 10:40 |
|---|
签到天数: 42 天 [LV.5]常住居民I
TA的关系
- 自我介绍
- 好
 |
基于数据相关性的异常检测算法研究
. X: w' i& P$ F x3 m9 X3 x, s, p6 T0 t5 Y: ] U
, Q5 L- i& S- l
& Z" A( o1 |0 H2 Y2 Z) M' |随着互联网的普及和信息技术的发展,异常检测已经逐渐成为数据挖掘领域
, ^" v- s0 |3 w- W% N% Y7 a的研究热点。异常检测旨在检测出观测数据中的非正常值,被广泛应用于反信用卡
/ _7 p7 R. l& o欺诈、网络入侵检测、医疗分析以及气象预报等领域。在这些领域中,异常数据的
/ R4 b/ D6 ^# ?6 ` C产生,相对于大量存在的正常数据,可以被视作一种随机现象,它通常不符合正常
! D5 a3 \% q% m4 t9 {数据的数据模式,也不具备正例样本所具有的数据相关性。数据的相关性包含数据
4 X' M0 w5 P/ {5 K. _内部样本属性之间的相关性以及数据样本间的相关性,即结构相关性。研究如何有+ L1 e7 f6 ~; \, G/ O0 N
效利用正常数据和异常数据在数据相关性上的差异性有助于提高异常检测性能。! b. `: _, R$ `' S& i5 n
为此,本文围绕数据属性相关性和数据结构相关性进行了深入细致的研究,并( c' w0 h1 b2 Y. a' \
取得了一定的研究成果。本文的主要研究成果包括:
9 A6 p& s6 e5 W9 K% C(11为解决多视角数据以及高维数据的异常检测问题,本文从数据属性相关性角度
2 E* }+ y2 e6 [2 A- R' j( f出发,提出了一种基于随机相关编码的异常检测算法。该算法将高维数据随机
( @# ^9 o) w1 ]0 r划分为多视角数据,并通过随机典型相关编码提取多视角数据集中不同视角和& j, L$ J! X, p/ L3 W
属性间的相关性构建RCCE特征空间。在RCCE特征空间基础上利用基于/ B* j. L' M$ S$ M( |2 ^0 P) }
Rayleigh分布的判决模型对正常数据和异常数据属性相关性的差异进行统计分
8 Z" X% `9 r8 S. G, I析以实现对测试样本的集成判决;
3 r! b( ?4 v, x( I- n, D+ `! V, ^6 W(2)在异常检测中,正常数据通常具有异常数据所不具备的某种数据结构相关性,$ `6 u/ v& _* W# H9 C6 ^
即数据的内蕴结构。为此,本文提出了一种新颖的基于标签传递的异常检测算- z) q2 G* \- L* ^+ c) W. A0 `- m
法。该算法通过图模型刻画正常数据所具有的内蕴结构,并通过多重标签传递2 c1 R% u1 T- I! f6 p |1 ?
来构建未标记正例样本与待测试样本标签置信度的差异。最后,基于正例样本
; Y. k( j3 F9 b0 l- H( I的标签置信度的统计特性分析,实现对测试样本的异常性判决;
2 I7 [: Q' y0 L, X" l- K. M* ?(3)针对现有基于聚类的异常检测算法的局限性,本文利用超图的优势,提出了一* G+ E& E9 N$ _6 J7 a
种基于超图聚类的异常检测算法。该算法首先通过超图聚类实现对数据结构的, m7 C( C8 O& K
描述,然后对得到的聚类结果利用基于关联度的判决模型对局部结构相关性进% f, s7 ^6 G! b- o& s" V, C
行分析,并将数据结构相关}生上的差异转换为关联度的差异,最后通过对关联1 K5 }8 L4 t( m2 R9 E' ?, [% d
度差异的统计分析实现对测试样本的异常判决。
% P+ B) u t- m: _- \# G% L: _' {
3 L' R6 e0 y! i9 q4 C
8 S! U3 W# G0 e4 y0 O9 C/ q0 S J! Z- f- }$ U2 ?
0 ~* }" {2 t* i; ]% z) @! Q& G
& U$ H; R3 q r; F |
zan
|