在时间序列分析中,标准化(Standardization)和归一化(Normalization)是两种常用的数据预处理技术,旨在提高模型的性能和稳定性。它们通过调整数据的范围和分布,使得不同特征之间具有可比性,尤其在使用机器学习算法时尤为重要。 1 t+ a* Y. u2 K3 j, p2 B3 Q, F6 D. N
### 1. 标准化(Standardization)8 G; Z" V7 P" }% i' C+ F
& q4 i, n: t! `8 i( V
标准化是将数据转换为均值为0,标准差为1的分布。通过标准化,可以消除不同特征之间的量纲影响,使得数据在同一尺度上进行比较。 ' i3 t' R O, S; a$ ~* x( w9 D( P6 K
#### 标准化的公式 ; e$ d9 q: m& o; B1 V: ] , u0 G% W2 k+ E/ T对于一个数据集 \(X\),其标准化的公式为:0 E( u* g3 I: f. h4 j
\[ & I& Z0 j Y" s# u& S2 d; sZ = \frac{X - \mu}{\sigma} * @) O- R' z. E# Q' B; j( f6 }\] / d- |1 _0 e( ?' a5 W其中:4 |% `% V4 f! r- b; v& X
- \(Z\) 是标准化后的值。 5 ~" G; t; |' |" a; f! W- \(X\) 是原始数据值。/ q) J: u% p5 o& O6 |/ O
- \(\mu\) 是数据的均值。 ; P3 v- k/ d _+ b* E$ m- \(\sigma\) 是数据的标准差。 / I* L1 C1 o6 G9 \ & O1 @! z2 \- o& {9 S& o#### 标准化的特点: t# Z* ^9 Q, _2 t( y* m+ S- h
4 b; c" F" h3 z# |
- **适用场景**:适合于数据呈现正态分布或近似正态分布的情况。! I- d. d# `6 {: K
- **平衡特征**:通过消除均值和标准差的影响,使得不同特征在同一尺度上进行比较。 3 \+ \3 w# T3 C: g7 [( c- **对异常值敏感**:标准化对异常值敏感,异常值会影响均值和标准差的计算。6 M* f; J: n* K' x( r1 ^
7 Z, k. [1 C8 \3 C### 2. 归一化(Normalization)+ h' B. S# L! ]: M) T' @6 X4 k* s
0 X- o) a6 B/ Q$ g v- X! s# w# F
归一化是将数据缩放到一个特定的范围,通常是[0, 1]或[-1, 1]。归一化可以使得不同特征具有相同的尺度,尤其在特征值的范围差异较大时。& p- ^0 h* t3 N) ?) m( O' X/ P
- d, j j, V" a$ c$ h+ J6 g#### 归一化的公式, I o. r+ E. J
* J5 S, d+ a- i2 a8 @
对于一个数据集 \(X\),其归一化的公式为: # r/ ^% Q( C- C9 c\[ / D; M4 C; Q% G/ \9 Y, J2 mX' = \frac{X - \text{min}(X)}{\text{max}(X) - \text{min}(X)} $ m: j" r' f3 u\] . d+ ?) Y, ]' k/ J/ |- \6 t) a4 s或者对于[-1, 1]范围的归一化:, `5 M4 q) c/ t6 B& Q- C( L \
\[8 a, m2 t3 A8 x V7 z" k, t: z
X' = \frac{2(X - \text{min}(X))}{\text{max}(X) - \text{min}(X)} - 1/ a) W7 U0 A8 y2 h, [2 H
\] ) G! b7 Q4 l( D其中: ( D4 v7 d1 K; S- \(X'\) 是归一化后的值。) l8 G) \) m7 d
- \(\text{min}(X)\) 和 \(\text{max}(X)\) 分别是数据集中的最小值和最大值。. l( D. W0 b3 T4 n. \/ R
: S& G# q2 b* n7 Y& Q* o
#### 归一化的特点& E3 m3 \! I! W
- O$ ~5 M* b3 [* `: o
- **适用场景**:适合于数据没有明显的正态分布,并且特征值范围差异较大的情况。 F/ ]) t4 G% u- **消除量纲**:通过将数据缩放到相同的范围,消除特征之间的量纲影响。 x2 u* h4 z8 e/ t
- **对异常值敏感**:归一化也对异常值敏感,异常值会影响最小值和最大值的计算。+ D( w- u& L. K7 g. ^2 w! h; a