数学建模社区-数学中国

标题: 时间序列中的标准和归一化 [打印本页]

作者: 2744557306    时间: 2024-9-20 16:35
标题: 时间序列中的标准和归一化
在时间序列分析中,标准化(Standardization)和归一化(Normalization)是两种常用的数据预处理技术,旨在提高模型的性能和稳定性。它们通过调整数据的范围和分布,使得不同特征之间具有可比性,尤其在使用机器学习算法时尤为重要。+ I0 b1 I& U+ @0 K; P! U3 V! I

. J) n6 j7 P) I" _### 1. 标准化(Standardization)1 L5 w2 V! Y. w4 E# c9 U

, B; u8 b: o" I" a/ k标准化是将数据转换为均值为0,标准差为1的分布。通过标准化,可以消除不同特征之间的量纲影响,使得数据在同一尺度上进行比较。$ P: @! c* p0 r" x- O
. b7 l% G: c$ ]: j4 W( G8 e+ N; ^
#### 标准化的公式
9 Z% v$ i  @  q( v% T. X+ z
* @0 G/ X; x2 [; |& m对于一个数据集 \(X\),其标准化的公式为:
# V- A! K. C# C\[
: i% O8 Q$ Z) n& I7 q6 b4 {Z = \frac{X - \mu}{\sigma}  M8 k* O  Q% [5 V5 c" ^8 c
\]! m% j) W3 E5 y; @
其中:+ z5 K" g3 j# w6 {+ R
- \(Z\) 是标准化后的值。& ~6 S& {& M/ _6 I
- \(X\) 是原始数据值。1 G2 L; ^1 G3 R8 `; ~9 m9 ^
- \(\mu\) 是数据的均值。# Y, i7 B, h9 g/ w
- \(\sigma\) 是数据的标准差。' l# @6 B' i5 Y  P& g
  v. H0 U# G8 Z. S% O% Y, z6 L* x
#### 标准化的特点
  ]5 W! r) q: Q+ i3 a! r3 R- e0 ~% Y: b3 y$ D( p
- **适用场景**:适合于数据呈现正态分布或近似正态分布的情况。3 Q6 i1 y% `) @# s
- **平衡特征**:通过消除均值和标准差的影响,使得不同特征在同一尺度上进行比较。5 C  n+ h8 O, F3 K3 y
- **对异常值敏感**:标准化对异常值敏感,异常值会影响均值和标准差的计算。
- ~+ L) X7 k% U7 T; _
/ k3 j) o# K/ t$ e  ^; E; @### 2. 归一化(Normalization)' L, i7 D% d0 A9 C1 K$ M( U# z

1 ]* V! r+ n; S5 }% ?# {归一化是将数据缩放到一个特定的范围,通常是[0, 1]或[-1, 1]。归一化可以使得不同特征具有相同的尺度,尤其在特征值的范围差异较大时。
0 m/ b8 O1 ?% x8 z2 E% L- |9 r+ g. i) E7 ]
#### 归一化的公式
* G0 L4 C5 E4 L, ^+ @* x, B5 U9 G1 R; b& C* x' E
对于一个数据集 \(X\),其归一化的公式为:' `0 T" N# y5 \2 Q
\[
: P. u6 C" P  P0 HX' = \frac{X - \text{min}(X)}{\text{max}(X) - \text{min}(X)}
3 E: Q! R; J6 l8 e3 @4 `\]$ v4 ]$ {5 }) r  k
或者对于[-1, 1]范围的归一化:5 E, }6 O/ g$ I. @
\[  ^+ q! v) ]8 b8 J
X' = \frac{2(X - \text{min}(X))}{\text{max}(X) - \text{min}(X)} - 13 y" _# m# I( w; \$ X0 R& `
\]7 d( X$ a% Y# s, x9 l( E: {
其中:
( l  H9 y7 U* k7 Z$ S2 O* {- \(X'\) 是归一化后的值。1 w) X& |& M+ x/ n% ?. {4 z& f
- \(\text{min}(X)\) 和 \(\text{max}(X)\) 分别是数据集中的最小值和最大值。* k. @  O- ^$ Y5 y! q" z: S
9 ?2 t! O+ s3 G* R
#### 归一化的特点' I3 t3 W) E! \$ {& B
& _% [8 T5 O; c3 j
- **适用场景**:适合于数据没有明显的正态分布,并且特征值范围差异较大的情况。
# B3 I: R( r1 }6 s/ A& l$ S- **消除量纲**:通过将数据缩放到相同的范围,消除特征之间的量纲影响。9 p# [  x: d: R  v* f( U
- **对异常值敏感**:归一化也对异常值敏感,异常值会影响最小值和最大值的计算。
) W3 [- g3 c& o: V( n8 e) w1 U4 z/ o: w0 u, U' u
### 3. 标准化与归一化的区别3 m4 E* M: X+ z+ Y1 V% n6 t$ F
) W( N7 b* S# K3 V8 [3 l
| 特征          | 标准化                      | 归一化                      |
) G0 |( g6 O5 q% E% m& @|---------------|-----------------------------|-----------------------------|
8 ], M+ g1 S+ Y2 {2 t+ s& y5 v: N6 G| 目标          | 均值为0,标准差为1          | 缩放到特定范围(如[0, 1]) |# S1 H- c* g; [
| 适用场景      | 数据近似正态分布           | 数据范围差异较大           |, U# @. H5 }3 k0 M. E- U& y
| 对异常值敏感  | 是                          | 是                          |$ t" H( a# k- k9 D% T" r
| 公式          | \(Z = \frac{X - \mu}{\sigma}\) | \(X' = \frac{X - \text{min}(X)}{\text{max}(X) - \text{min}(X)}\) |6 Z: m+ G: P" p; b

* }8 N' [$ d$ x5 O& J( T4 H# m### 4. 在时间序列中的应用  x) E. w1 I  T$ T3 d& e
+ O/ M' X6 p& S% u" e. S* u" i% ^  n# E
在时间序列分析中,标准化和归一化可以用于以下几个方面:2 s# A- A2 B- v8 R. h7 T
) U; I( D! `7 q' O* o- U& K
- **特征工程**:在构建特征时,标准化和归一化可以帮助提高模型的表现,尤其是在使用基于距离的算法(如KNN、SVM等)时。) b: Q" X7 O* k. o
- **平稳性检验**:在进行平稳性检验时,标准化可以帮助消除数据的尺度影响,使得检验结果更为可靠。
' d( d! ]& @. D2 _# L- **模型训练**:在训练机器学习模型时,标准化和归一化可以加速收敛,提高模型的训练效率。' R. Q' E+ ?6 X2 C1 ~# Q8 s

3 f. s4 B4 p6 L1 `1 Y8 a### 总结
( z# F8 k% Q1 R& D' ]. b8 Y; x1 R/ {" U! X5 V
标准化和归一化是时间序列数据预处理的重要步骤,能够提高模型的性能和稳定性。选择使用哪种方法取决于数据的特性和所使用的模型。了解这两者的区别和适用场景,可以帮助更好地进行时间序列分析和预测。
/ J5 e/ d9 y3 ]. r: T
( @" B8 e4 h) u! [
7 H( C; W: C6 |+ y4 M, ?1 [" g: Z; i
5 Z4 X, E7 s( t' K- b+ W

判断数据是否适用标准化.py

215 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]

归一化.py

726 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]

标准化.py

727 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]

daily-minimum-temperatures-in-me.csv

62.82 KB, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]






欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5