数学建模社区-数学中国

标题: 时间序列中的标准和归一化 [打印本页]

作者: 2744557306    时间: 2024-9-20 16:35
标题: 时间序列中的标准和归一化
在时间序列分析中,标准化(Standardization)和归一化(Normalization)是两种常用的数据预处理技术,旨在提高模型的性能和稳定性。它们通过调整数据的范围和分布,使得不同特征之间具有可比性,尤其在使用机器学习算法时尤为重要。
4 X2 i$ @6 D  ]* ^0 D3 q/ _  o* T7 m, y% m7 x* ?8 V8 o" g  O
### 1. 标准化(Standardization)
: o& }: ]; e/ k& n* i+ B7 o; u, f9 \6 |% L" C$ Z( r/ b
标准化是将数据转换为均值为0,标准差为1的分布。通过标准化,可以消除不同特征之间的量纲影响,使得数据在同一尺度上进行比较。
$ ]) C7 `% T* o0 t# g" R2 e
( ~: S" P9 z- ^! k#### 标准化的公式
: X4 g. s, B6 U0 `# _+ b3 w: T0 ^; q# Y: \4 h% Z
对于一个数据集 \(X\),其标准化的公式为:
% ~8 K+ F2 k( A7 L0 l9 W- W\[
: ~  \# ^  n" v+ z. o5 mZ = \frac{X - \mu}{\sigma}
2 g9 {! g7 [* q, B\]
  ?4 x3 _6 h$ J  T其中:
4 u7 w. v  j( y. t, x- \(Z\) 是标准化后的值。
8 b% x7 N6 q; ], u& T  D( o+ U, P- a- \(X\) 是原始数据值。
# k$ v6 X8 R2 R# Z3 }- \(\mu\) 是数据的均值。* ?% m1 j& n/ j9 }
- \(\sigma\) 是数据的标准差。" ]/ H: e$ P* @: N$ U
7 p8 o. x% F/ I. I# \
#### 标准化的特点
* C9 B1 m7 E. f+ l
6 A* A) i0 c3 g8 u1 c, ]2 \, [- **适用场景**:适合于数据呈现正态分布或近似正态分布的情况。1 g& a: t1 V/ w% Y; c
- **平衡特征**:通过消除均值和标准差的影响,使得不同特征在同一尺度上进行比较。  k6 L) h6 h9 _; ?) D+ J
- **对异常值敏感**:标准化对异常值敏感,异常值会影响均值和标准差的计算。, z4 [. A4 K( A- b/ b9 @# I

! k  S6 c! ?6 f( A/ k! U$ O### 2. 归一化(Normalization)
1 j; {4 m  U9 [) G3 M# d0 O
$ B( l1 E; M4 z7 E: [% X- x归一化是将数据缩放到一个特定的范围,通常是[0, 1]或[-1, 1]。归一化可以使得不同特征具有相同的尺度,尤其在特征值的范围差异较大时。
1 B2 h  i5 j1 O: O$ ]- L6 F+ l) E9 n& r' r
#### 归一化的公式  N" J: f6 `  {- \" }
+ {# U* ^6 O& g" Y
对于一个数据集 \(X\),其归一化的公式为:* t* b. O4 i1 @; L  o. q
\[6 H7 I  n; `2 Y
X' = \frac{X - \text{min}(X)}{\text{max}(X) - \text{min}(X)}
& m/ I+ K" d( H$ _\]
  F5 }7 c# K# ^+ a5 P8 @0 ]或者对于[-1, 1]范围的归一化:
0 W! t" J0 k- @# ?. U\[5 T0 s2 u4 S$ J) f2 \8 [; c
X' = \frac{2(X - \text{min}(X))}{\text{max}(X) - \text{min}(X)} - 1) y/ A- ^. D) |# Y+ M$ `5 @
\]
+ C5 ?  h$ {, ?0 R其中:
+ A& D3 K+ y1 n1 s7 Y( O- \(X'\) 是归一化后的值。
, ~% W# A* |* U  y- \(\text{min}(X)\) 和 \(\text{max}(X)\) 分别是数据集中的最小值和最大值。
& p' V1 I0 [! o5 x
$ d( r7 |+ |  Q#### 归一化的特点5 W- |8 u6 I" S" U( ?
! {7 ?' f% D* A
- **适用场景**:适合于数据没有明显的正态分布,并且特征值范围差异较大的情况。
, x$ Y7 M0 `. L/ ^; j  _9 L$ \9 j- **消除量纲**:通过将数据缩放到相同的范围,消除特征之间的量纲影响。7 b4 j9 {$ {  H4 d% A* i
- **对异常值敏感**:归一化也对异常值敏感,异常值会影响最小值和最大值的计算。
# v/ p9 F9 p, i5 W! c" W! j& B$ y* e
### 3. 标准化与归一化的区别
$ s% W; B5 D/ c: i0 Y
- V0 z% ]' y' D6 e# T% G9 T  ]| 特征          | 标准化                      | 归一化                      |
2 @: ~# }6 H- k+ P|---------------|-----------------------------|-----------------------------|
; }4 V3 M2 j" F, A| 目标          | 均值为0,标准差为1          | 缩放到特定范围(如[0, 1]) |2 S0 f9 D+ r5 `7 @4 A
| 适用场景      | 数据近似正态分布           | 数据范围差异较大           |8 \3 |% O" W( I5 K9 V- Y5 w
| 对异常值敏感  | 是                          | 是                          |% a. O, B$ z$ h0 R' G/ Q# n- ?
| 公式          | \(Z = \frac{X - \mu}{\sigma}\) | \(X' = \frac{X - \text{min}(X)}{\text{max}(X) - \text{min}(X)}\) |
2 a4 \( f3 e0 s3 I8 ^  g( U) Q' |) Z5 f1 `6 Q) W5 E3 z
### 4. 在时间序列中的应用  W: J: O7 d" T$ i5 B& x+ F& i
7 b5 ?0 q+ Q' R+ n$ j
在时间序列分析中,标准化和归一化可以用于以下几个方面:
0 v$ }8 J8 Q6 A/ r$ C4 d& U; Z/ c9 a  x: j/ [* r$ g! {2 y! t+ e! S
- **特征工程**:在构建特征时,标准化和归一化可以帮助提高模型的表现,尤其是在使用基于距离的算法(如KNN、SVM等)时。: a( A/ Y, z8 k2 U
- **平稳性检验**:在进行平稳性检验时,标准化可以帮助消除数据的尺度影响,使得检验结果更为可靠。4 R+ |8 j4 I3 d4 I% T
- **模型训练**:在训练机器学习模型时,标准化和归一化可以加速收敛,提高模型的训练效率。
$ V7 ^8 Z1 g3 }, t1 T: }; t% w: H
### 总结
- G1 L' j7 D2 E) Q
* _1 l- C% ^% I& h1 v, P标准化和归一化是时间序列数据预处理的重要步骤,能够提高模型的性能和稳定性。选择使用哪种方法取决于数据的特性和所使用的模型。了解这两者的区别和适用场景,可以帮助更好地进行时间序列分析和预测。
1 ~4 L/ I. M8 ?& G1 }" s- z7 d
4 u3 I. x+ Z7 K# e! b; y, I& U6 {2 Y+ ]: Z# G8 S  k
% q3 }9 l9 b( G) }, `) J9 d4 {' J* T; u

判断数据是否适用标准化.py

215 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]

归一化.py

726 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]

标准化.py

727 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]

daily-minimum-temperatures-in-me.csv

62.82 KB, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]






欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5