数学建模社区-数学中国

标题: 时间序列中的标准和归一化 [打印本页]

作者: 2744557306    时间: 2024-9-20 16:35
标题: 时间序列中的标准和归一化
在时间序列分析中,标准化(Standardization)和归一化(Normalization)是两种常用的数据预处理技术,旨在提高模型的性能和稳定性。它们通过调整数据的范围和分布,使得不同特征之间具有可比性,尤其在使用机器学习算法时尤为重要。
; F! B: e: J* D$ i' Q4 S7 l
  X6 Y8 }4 t7 k% n. d& c### 1. 标准化(Standardization)- y* q; K  w2 x/ A) X
$ [; z% o: {2 F* E
标准化是将数据转换为均值为0,标准差为1的分布。通过标准化,可以消除不同特征之间的量纲影响,使得数据在同一尺度上进行比较。
9 j5 u) y/ e" ^9 f0 T$ i6 D6 d; J; @& t8 H, n
#### 标准化的公式
/ F) o  f  @$ f- K, B' \; l3 |( a7 y+ f  q+ w! [+ ]: U" O  o+ |- q
对于一个数据集 \(X\),其标准化的公式为:( b: M& S, i$ T& k$ I
\[
+ \7 C+ w! H  ?/ bZ = \frac{X - \mu}{\sigma}# F; B, y! G6 j3 A! W
\]
" M! L) u3 y" _6 D( _2 c其中:+ W* p1 i8 f, a6 i
- \(Z\) 是标准化后的值。3 k+ v9 p9 f+ I0 ?$ c
- \(X\) 是原始数据值。' n' i' ^, W! {
- \(\mu\) 是数据的均值。
3 \4 J) W* r0 N5 O- \(\sigma\) 是数据的标准差。
5 p9 c, x2 |" c7 L" o+ D, y/ a9 i6 e0 ^/ H5 {, h
#### 标准化的特点4 }/ i; f( Z& E# [

1 k( s  k% ^; R' u+ E- **适用场景**:适合于数据呈现正态分布或近似正态分布的情况。
- ?! F8 [6 i, M- o9 K) ^- **平衡特征**:通过消除均值和标准差的影响,使得不同特征在同一尺度上进行比较。% ?: u9 L5 x- r8 i0 G0 j
- **对异常值敏感**:标准化对异常值敏感,异常值会影响均值和标准差的计算。
( a+ G0 ]) i* i1 y& S9 a, E
6 j- e& q- w2 ]8 J3 t; [### 2. 归一化(Normalization)
  v  x1 A1 k# T5 \  D
0 n  W$ h1 l% [  L, G6 p1 S* C- ^归一化是将数据缩放到一个特定的范围,通常是[0, 1]或[-1, 1]。归一化可以使得不同特征具有相同的尺度,尤其在特征值的范围差异较大时。9 X3 N5 k) g9 x" a7 b9 k3 ?

" W8 e: M7 _6 r4 b8 s1 U#### 归一化的公式/ S6 \6 v, z  J* F/ h  L

; d7 X) b7 I" p+ j! J对于一个数据集 \(X\),其归一化的公式为:4 _0 |3 K. K' z+ G
\[/ w& S, ]  F" V9 l
X' = \frac{X - \text{min}(X)}{\text{max}(X) - \text{min}(X)}  a9 i/ @' U- s5 @: N: F
\]. V! Y0 x: c+ j1 s& n! h. C
或者对于[-1, 1]范围的归一化:! R$ G3 ^" G! u& y) @8 D2 ]
\[- G. n. N; a( `+ A5 r3 t
X' = \frac{2(X - \text{min}(X))}{\text{max}(X) - \text{min}(X)} - 1
1 c2 q. r: s, g- d: q7 ~6 ]\]5 E1 \: r1 q, q- u* r
其中:
, H* _' B# V, E' }- N6 S- \(X'\) 是归一化后的值。+ g1 h& h% a$ F$ U
- \(\text{min}(X)\) 和 \(\text{max}(X)\) 分别是数据集中的最小值和最大值。+ W/ U4 j8 W- u' a
: B# Z3 Z- r/ Q7 s7 h8 Q: g
#### 归一化的特点
! \$ {# W: \) S& i
4 h& a- Q: A: t* j/ L3 R$ b- **适用场景**:适合于数据没有明显的正态分布,并且特征值范围差异较大的情况。
$ f* f/ {7 G7 c* d9 F9 Z! T- **消除量纲**:通过将数据缩放到相同的范围,消除特征之间的量纲影响。
3 h/ N) Z/ `6 ?3 z7 d- **对异常值敏感**:归一化也对异常值敏感,异常值会影响最小值和最大值的计算。
, @/ j* p" s- u$ |' s* z! ?, z( U! _: ]
### 3. 标准化与归一化的区别3 D! q: v9 B& L8 [
1 d4 t' t8 K; P7 e1 L2 I' T8 g
| 特征          | 标准化                      | 归一化                      |: U5 D, d$ Y; Q
|---------------|-----------------------------|-----------------------------|
2 d2 d- e! j  P/ L& `0 V" T9 k; @( X| 目标          | 均值为0,标准差为1          | 缩放到特定范围(如[0, 1]) |. s: C# O5 Z6 J( \. P1 Z
| 适用场景      | 数据近似正态分布           | 数据范围差异较大           |" r. i& ~3 i2 z+ Y( E
| 对异常值敏感  | 是                          | 是                          |
9 e/ K/ x4 {: q( R% U/ b( S| 公式          | \(Z = \frac{X - \mu}{\sigma}\) | \(X' = \frac{X - \text{min}(X)}{\text{max}(X) - \text{min}(X)}\) |( V, `* ]4 x- R6 M7 s
$ N5 ?' e& ^3 M$ _( h9 D% Z
### 4. 在时间序列中的应用9 }3 G. ^" w; m, e* L" S+ h
; A! g4 V$ ?; k7 p1 V$ O
在时间序列分析中,标准化和归一化可以用于以下几个方面:4 M- u) ~# E; r

7 J/ S  {( J: A" o+ c0 u1 b- **特征工程**:在构建特征时,标准化和归一化可以帮助提高模型的表现,尤其是在使用基于距离的算法(如KNN、SVM等)时。$ d: q2 C/ C  B. k  s
- **平稳性检验**:在进行平稳性检验时,标准化可以帮助消除数据的尺度影响,使得检验结果更为可靠。
) H" d0 E+ w7 y9 W2 Z- **模型训练**:在训练机器学习模型时,标准化和归一化可以加速收敛,提高模型的训练效率。' G8 W! D. ]& Z) I: }# o

6 H, w* Q: o5 r0 c0 v. [. U2 q3 s### 总结
+ N9 P. h. M" S/ u1 Q# a8 Y" A' f$ a+ N/ m1 s' ^: M
标准化和归一化是时间序列数据预处理的重要步骤,能够提高模型的性能和稳定性。选择使用哪种方法取决于数据的特性和所使用的模型。了解这两者的区别和适用场景,可以帮助更好地进行时间序列分析和预测。' k9 V8 G+ G. F9 \+ W

0 F3 b! P1 A+ Q0 {3 p- K
2 s- \0 C; h9 W
' Z" w# a+ `3 G/ T& X3 ~* S

判断数据是否适用标准化.py

215 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]

归一化.py

726 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]

标准化.py

727 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]

daily-minimum-temperatures-in-me.csv

62.82 KB, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]






欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5