5 m" ~6 f5 v. B; ^ STING是一种基于网格的多分辨率的聚类技术,它将输入对象的空间区域划分成矩形单元,空间可以用分层和递归方法进行划分。这种多层矩形单元对应不同的分辨率,并且形成了一个层次结构:每个高层单元被划分成低一层的单元。关于每个网格单元的属性的统计信息(如均值,最大值和最小值)被作为统计参数预先计算和存储。对于查询处理和其他数据分析任务,这些统计参数是有效的。 & S/ ~ n+ ^9 K$ v% h5 i - g. {$ M1 ?3 v* O STING算法: 5 ?/ C' {3 J: H1 g7 q+ y9 c$ e! n; Y! W! B' M
(1) 针对不同的分辨率,通常有多个级别的矩形单元。 6 x. Y& w" V+ O3 | & l5 F. f; R: Z (2) 这些单元形成了一个层次结构,高层的每个单元被划分成多个底一层的单元。 ! L& T) o6 k: k: c5 ~& z5 ]; _ ) R4 b5 ~: \& G7 z) z. S (3) 关于每个网格单元属性的统计信息(例如平均值,max,min)被预先计算和存储,这些统计信息用于回答查询。(统计信息是进行查询使用的)9 N6 H6 _% ?$ h( L4 y8 t6 ?
' T' I k/ M. b/ u8 R8 q
网格中常用的参数:# t% S7 O( D B4 l. @) J
% K2 Y3 ~) T* n (1) count 网格中对象数目 7 s2 D, n7 Y3 G' D , N0 U' \# a5 K! T" z$ ] (2) mean网格中所有值的平均值 $ M2 Q C3 Z9 p2 R; R- c 0 Z( i, v: |* q8 w! _ (3) stdev网格中属性值的标准偏差 ' X5 C j( e; Q " P# z& a ~8 l+ ?2 b4 \* a3 N! G (4) min 网格中属性值的最小值: H" L. `# s o* m6 H1 Z1 h! }6 c9 n
0 d" }1 P! J; o, L3 {4 }( T- ? (5) max 网格中属性值的最大值 % _, f, v; D& s; H: s& R / f& C0 W: l/ e. s (6) distribution 网格中属性值符合的分布类型。如正态分布,均匀分布 ) l' v- y( ?: l# e0 y; ^9 m! r 2 n) O$ `& E* q% r, h* N8 I STING聚类的层次结构: 5 g8 N- _9 R- u0 N9 \8 q8 S" h' b+ L& m) p6 l M- C* r
通过上面两幅图,我们可以清晰的理解,STING的层次结构,上一层与下一层的关系。 & {/ H. _3 @+ H* o( f$ L. b% S5 Q J' v; W8 O
注意:当数据加载到数据库时。最底层的单元参数直接由数据计算,若分布类型知道,可以用户直接指定。而较高层的单元的分布类型可以基于它对应的低层单元多数的分布类型,用一个阈值过滤过程的合取来计算,若底层分布类型彼此不同,那么高层分布类型为none ' ^% {6 Y8 S4 h6 ]# l1 T 9 a4 U; h% _; f# b5 I9 H STING查询算法步骤: , _( g" @. v! N8 E, N9 i# m, Z9 m7 G$ B, ^0 K
(1) 从一个层次开始 % A: H# J) B" O4 S; R' ^$ m; O 4 C5 s8 \7 F% U3 @5 T" G (2) 对于这一个层次的每个单元格,我们计算查询相关的属性值。" ?8 c( u w+ \
$ n6 j2 g7 P) z) h (3) 从计算的属性值以及约束条件下,我们将每一个单元格标记成相关或者不想关。(不相关的单元格不再考虑,下一个较低层的处理就只检查剩余的相关单元)3 z' L, [" @) g, H8 [6 \' [7 q
7 T4 }1 c) T4 f. C' m8 f( t
(4) 如果这一层是底层,那么转(6),否则转(5) + q s/ n! O. f9 C3 O) e) w8 y0 K; B9 \2 K
(5) 我们由层次结构转到下一层,依照步骤2进行 5 W/ G, J4 Z+ w% W% c: [3 X1 M9 ?& c6 j* `7 S# ~9 D6 c
(6) 查询结果得到满足,转到步骤8,否则(7) 7 N2 ^ @3 n# V+ t; ?" B. n- R% H3 l7 @. e/ S/ L+ r1 z, U
(7) 恢复数据到相关的单元格进一步处理以得到满意的结果,转到步骤(8) 5 @2 C9 j" b! s& x4 }4 G - o) I( f- u: `9 V% l (8) 停止 0 Z4 m8 l) v3 j/ @% X7 f. p+ _( B$ N" m G, y% [
到这儿,STING算法应该基本就差不多了,其核心思想就是:根据属性的相关统计信息进行划分网格,而且网格是分层次的,下一层是上一层的继续划分。在一个网格内的数据点即为一个簇。4 d' o6 |3 z/ ] S6 y9 Y1 w
: Y+ B/ b' E9 R2 W. E
同时,STING聚类算法有一个性质:如果粒度趋向于0(即朝向非常底层的数据),则聚类结果趋向于DBSCAN聚类结果。即使用计数count和大小信息,使用STING可以近似的识别稠密的簇。 w! Y8 \' [7 L+ z, \5 V; }# {; H) u& c
STING算法的优点:) b2 F3 p8 }1 F4 m6 I M% A
7 N m6 _$ o: t7 j0 ]( `7 k: w2 c* B (1) 基于网格的计算是独立于查询的,因为存储在每个单元的统计信息提供了单元中数据汇总信息,不依赖于查询。3 E7 d$ z* V- {% N, f
$ P8 X% ~: N4 I7 n R* S
(2) 网格结构有利于增量更新和并行处理。 , d6 F* I0 g) ~% @( I. p6 H i ) \4 r8 ], H0 c# l9 t3 i (3) 效率高。STING扫描数据库一次开计算单元的统计信息,因此产生聚类的时间复杂度为O(n),在层次结构建立之后,查询处理时间为)O(g),其中g为最底层网格单元的数目,通常远远小于n。; X b4 T+ F6 q% J: d0 V8 O, M) A
3 R5 M. Q2 Q# `, p$ _ 缺点:' ~! z: b {' ?3 U e! e+ A Y
! M# D) i9 `9 W+ F6 ^
(1) 由于STING采用了一种多分辨率的方法来进行聚类分析,因此STING的聚类质量取决于网格结构的最底层的粒度。如果最底层的粒度很细,则处理的代价会显著增加。然而如果粒度太粗,聚类质量难以得到保证。: D8 d# P: a1 @$ n1 l- K) C8 H+ o' Z