! A9 z( P0 |& ^图的每个节点对应于一个关键点、一个身体关节,每个边表示两个节点之间的某种关系。 存在许多"关键点关系",如解剖学上定义的物理关系(例如,左手腕和肘部连接)和由运动定义的动作关系,这些运动往往在特定动作的上下文中高度相关(例如,跑步时左右膝盖倾向于朝相反方向移动)。图的方向来自于这样一个事实,即一些关系是在优化过程中学习的,并且不是对称的。这种表示的一个好处是紧凑,这对于高效的视频分析非常重要。 ) k: s: B% ~/ z2 b5 w' J; E/ z% a, w为了在时间上扩展,将从视频序列中提取的姿势关键点表示为姿势图的时间序列。 时间姿势图是人体关节位置的时间序列。时域邻接可以类似地通过连接连续帧中的关节来定义,允许我们利用姿势图序列的空间和时间维度执行图卷积运算 W" i0 w+ f$ V! R6 X8 h {! J8 Z" f/ c7 X8 t/ J+ {
我们提出了一种基于深度时态图自动编码器的结构,用于嵌入时态姿态图。 基于图2所示ST-GCN的基本块设计,我们将基本GCN算子替换为新的空间注意力图卷积,如下所示。 1 Z3 t+ E Q, m6 \ 6 S8 K6 k. U, G* \2 H4 s3.2. Spatial Attention Graph Convolution1 ^6 F& b% u/ P- |$ [7 o5 t( G6 t
我们提出了一个新的图算子,如图3所示,它使用三种类型的邻接矩阵:静态、全局学习和推断(基于注意力)。每个邻接类型使用单独的权重应用其自己的GCN。 $ G5 Z# y7 C1 ^1 s# l5 x / w: C' _. m- L% t2 l. bGCN的输出按通道维度堆叠。采用1×1卷积作为加权叠加输出的可学习缩减度量,并提供所需的输出信道数。 x } H* g- q |5 W
+ [" z2 ~+ e4 o/ _# I
三个邻接矩阵捕捉了模型的不同方面:3 g$ h9 J4 D! n
(i)使用身体部位连通性作为优先于节点关系,使用静态邻接矩阵表示。# y- ?! }+ D0 j1 Q* D+ W4 |
(ii)由全局邻接矩阵捕获的数据集级关键点关系,以及 7 q. k7 {' A- [' L: i% z(iii)由推断邻接矩阵获取的样本特定关系。最后,可学习约简度量对不同的输出进行加权 o& n" ?" n) _' e; K! ^1 C: C7 Y& {
- b1 i3 x; Z6 ]2 W/ y1 ?! P
后续段落介绍了静态、全局学习和推断的邻接矩阵的设置方法,即图3中的A,B和C,在此略过。 7 N7 z/ a( O" w9 `3 k7 B3.3. Deep Embedded Clustering7 B i. J9 T2 t
为了构建我们的底层动作词典,我们采用训练集样本,并将它们联合嵌入和聚类到一些潜在空间中。然后,每个样本由其分配给每个底层聚类的概率表示。选择目标是为了提供不同的潜在集群,这些集群上存在动作。0 `9 }' A% D. f+ l0 i
) K& F2 X2 {- s K& @1 \1 d) [
我们采用了深嵌入聚类的概念[32],用我们的ST-GCAE架构对时间图进行聚类。所提出的聚类模型由编码器、解码器和软聚类层三部分组成。/ R3 T& B; ~0 h, j
. W6 s, O: l" X) \
具体地说,我们的ST-GCAE模型保持了图的结构,但使用了较大的时间步长和不断增加的通道数来将输入序列压缩为潜在向量。解码器使用时间上采样层和额外的图卷积块,用于逐渐恢复原始信道计数和时间维度。 5 G' I3 r5 \: {/ L( r6 T" u # m. q. y$ z' X9 QST-GCAE的嵌入是数据聚类的起点。在我们的聚类优化阶段,对基于重构的初始嵌入进行微调,以达到最终的聚类优化嵌入。7 c, Q/ A; B5 T2 }, L# V
) O# U& f+ |/ o; G2 G! z5 E) |
符号 表示- {3 G* I. A) Z; J
x i x_ix 6 |0 v2 r( [& k/ r% I6 ^ Xi 6 I$ k' O* K- e& {2 J# R' y2 {8 B8 w; o7 D
输入示例3 ?( ?: v: s$ S/ r9 R2 T
z i z_iz 9 c- w$ K- v8 [ u% p9 }i, E: V9 F. A5 r4 L$ g
5 v) ], o7 H& t 编码器的潜在嵌入 0 f: `% `' Q7 J( Ty i y_iy 6 t+ v, p0 i8 T0 }9 ni " h8 ^) ?3 [; M3 g ) O1 A, d2 @7 J( O4 h6 D' S/ K+ K 使用聚类层计算的软聚类分配 % N. A% J5 e. _/ sΘ ΘΘ 聚类层的参数9 B$ l0 t2 }$ l: A
p i k p_{ik}p 4 u7 }7 _' P! N! F# lik 0 o7 l: c8 R5 U( T0 m& _" D5 g7 E( w, Q/ B4 `0 _) u6 b
probability for the i-th sample to be assigned to the k-th cluster% y/ z8 P0 y4 [) h$ V' K& ]0 J
4 Q2 U, H. n& r5 N- S ! Z2 U* e8 c* I- v0 s+ S; ]我们采用[32]提出的聚类目标和优化算法。聚类目标是最小化当前模型概率聚类预测P和目标分布Q之间的KL散度:. `) [4 h' Y4 E
4 _2 u$ W/ g: }1 o( H, H& J; Z7 c
# S A5 T' W( H) F R目标分布旨在通过标准化和将每个值推到更接近0或1的值来加强当前的群集分配。反复应用将P转换为Q的函数将最终导致硬分配向量。使用以下等式计算目标分布的每个成员: 3 M/ V0 t9 c. A. R; V; W j8 A' w4 C1 M) r
( N# ~8 b% Z9 O
聚类层由为编码训练集计算的K均值质心初始化。优化以期望最大化(EM)的方式进行。 9 p- A- G3 [: B/ |9 M在期望步骤期间,整个模型是固定的,并且目标分布Q被更新。在最大化阶段,优化模型以最小化聚类损失Lcluster。 ) {- `( t _5 }, v9 T- } $ i1 F. [9 V/ o, Q$ W3.4. Normality Scoring ! g9 T8 U! B) p* Z; n) N该模型支持两种类型的多模分布。一个是集群分配级别;另一个是在软分配向量级别。例如,一个动作可能被分配给多个集群(集群级分配),导致多模式软分配向量。3 E; J& X6 D. V
软分配向量本身(捕获动作)也可以通过多模态分布建模。/ W/ D2 O9 l- w% T X5 i