数学建模社区-数学中国

标题: 时间序列中的标准和归一化 [打印本页]

作者: 2744557306    时间: 2024-9-20 16:35
标题: 时间序列中的标准和归一化
在时间序列分析中,标准化(Standardization)和归一化(Normalization)是两种常用的数据预处理技术,旨在提高模型的性能和稳定性。它们通过调整数据的范围和分布,使得不同特征之间具有可比性,尤其在使用机器学习算法时尤为重要。9 e4 J" @% }0 M3 `3 Z' z: q1 d, r$ a
; s# z. q7 g- y6 `8 `% X* a3 q
### 1. 标准化(Standardization)
/ c/ c0 T7 N/ l, r2 H$ ]% R9 K* L1 ]+ ^9 m: w. H% a' x
标准化是将数据转换为均值为0,标准差为1的分布。通过标准化,可以消除不同特征之间的量纲影响,使得数据在同一尺度上进行比较。
& S4 B) L+ T7 D5 A/ J! G4 `6 W/ Y) z2 c
#### 标准化的公式+ p+ S0 F+ ?4 H1 r  a. z+ u

3 S6 y' k' P2 X* q' H4 i; w对于一个数据集 \(X\),其标准化的公式为:
; Q& A  Z! Q9 x* Q, o0 J5 |8 W\[  Y- q! G8 i6 f+ H+ B0 q: k. K
Z = \frac{X - \mu}{\sigma}
7 {  x) I9 z7 A) z" v1 }# @\]( w1 Y" x  R! T2 E
其中:: O- r/ V* G- t# H* b
- \(Z\) 是标准化后的值。
; {. u- F: W1 i( s) r2 R5 n- \(X\) 是原始数据值。
% q- e! g; ]0 {% y5 f6 g, i- \(\mu\) 是数据的均值。9 G' O. Y% b5 C: Z; _* v. z
- \(\sigma\) 是数据的标准差。8 q9 a# h+ D% N& {7 y4 p
, d2 Q! v& L/ ~. s" @9 I
#### 标准化的特点4 u) h. K1 T) ]5 S" S! E9 F0 G

6 Y9 {# |2 l2 g& ^# X+ r* A- **适用场景**:适合于数据呈现正态分布或近似正态分布的情况。, D6 X+ o8 S/ u6 U$ z1 i  V
- **平衡特征**:通过消除均值和标准差的影响,使得不同特征在同一尺度上进行比较。+ K0 ^1 X( d/ J+ K: e( B) i
- **对异常值敏感**:标准化对异常值敏感,异常值会影响均值和标准差的计算。
9 n- X5 i% ]6 G& Y" O0 S* I( q+ U  i& ~1 J4 X
### 2. 归一化(Normalization)
2 |2 D4 B" P3 o3 M+ j! l  a2 e* l9 {8 o- [; B& U% z
归一化是将数据缩放到一个特定的范围,通常是[0, 1]或[-1, 1]。归一化可以使得不同特征具有相同的尺度,尤其在特征值的范围差异较大时。
/ \  x! n. g$ G2 J8 ]* P, t% L( d8 M. N5 `7 [6 A8 Y" I* P$ G7 m, `% }
#### 归一化的公式
8 k5 ^1 `6 n" p- i- Z% f3 s
/ l+ o' p7 P6 p; s对于一个数据集 \(X\),其归一化的公式为:2 A4 y3 E8 [8 \% b
\[' p" ]2 G8 }7 N- V5 P# {
X' = \frac{X - \text{min}(X)}{\text{max}(X) - \text{min}(X)}5 d. H! ^- V* F$ @2 S7 g
\]
* g3 L0 o( b1 l9 V* i6 [* U) R或者对于[-1, 1]范围的归一化:0 l% n( C( {. m/ M5 c9 |0 [
\[
3 J! s) h9 R6 `9 O: Q, ], |' @( pX' = \frac{2(X - \text{min}(X))}{\text{max}(X) - \text{min}(X)} - 15 L) ?9 v) I2 q; L+ }: g
\]
8 w+ a. u2 b6 {7 [1 X0 C其中:
8 C+ ^4 |4 @: j+ n% J- \(X'\) 是归一化后的值。6 l4 M2 E! }( a, K
- \(\text{min}(X)\) 和 \(\text{max}(X)\) 分别是数据集中的最小值和最大值。
; h/ s, K4 L1 X' `5 |8 s+ ~. }& B1 U+ D! t  t/ Z4 w$ [2 g) Z+ }
#### 归一化的特点
% G1 x# b4 z. V7 z6 E2 q' @# k) z  r
+ a( m& v) E& v- F% a+ T- **适用场景**:适合于数据没有明显的正态分布,并且特征值范围差异较大的情况。
* [4 K  _" |. m+ f2 A0 F5 ^- **消除量纲**:通过将数据缩放到相同的范围,消除特征之间的量纲影响。7 j4 }4 o$ ~. P; {( b4 Q
- **对异常值敏感**:归一化也对异常值敏感,异常值会影响最小值和最大值的计算。; x& H6 ?( s9 d
8 f, }" m) ^1 }4 ?. R1 ^
### 3. 标准化与归一化的区别6 e% S/ Y$ a% W6 x
& T# Q. }1 {' P  w3 h2 G
| 特征          | 标准化                      | 归一化                      |
2 T+ d7 f5 W7 t' p- e( i) a" y5 y$ c|---------------|-----------------------------|-----------------------------|
# V! O2 A- F/ r4 `| 目标          | 均值为0,标准差为1          | 缩放到特定范围(如[0, 1]) |) X9 K0 ~! n! Y/ k: @. g0 \
| 适用场景      | 数据近似正态分布           | 数据范围差异较大           |
" F' a" H2 c+ |- `+ f5 o| 对异常值敏感  | 是                          | 是                          |& s6 R0 `* ]* o- \% `- f
| 公式          | \(Z = \frac{X - \mu}{\sigma}\) | \(X' = \frac{X - \text{min}(X)}{\text{max}(X) - \text{min}(X)}\) |8 s) w1 E( x0 h/ @9 `+ e& h
# ?  f9 m8 I5 ~8 X& r* r
### 4. 在时间序列中的应用) d+ Z$ \( ^' O4 X
4 `+ ]8 O# y( N. I( W5 u8 J3 O+ A
在时间序列分析中,标准化和归一化可以用于以下几个方面:
+ p$ d% d2 Q; Z. }- y  M
. @) n( r9 j1 J) s3 e# m* j0 ?- **特征工程**:在构建特征时,标准化和归一化可以帮助提高模型的表现,尤其是在使用基于距离的算法(如KNN、SVM等)时。7 ]. x: m2 U' K. H
- **平稳性检验**:在进行平稳性检验时,标准化可以帮助消除数据的尺度影响,使得检验结果更为可靠。1 \( c4 Q1 v! p: s! {4 r+ H9 u
- **模型训练**:在训练机器学习模型时,标准化和归一化可以加速收敛,提高模型的训练效率。
- R7 K) U6 W$ {2 E5 r# a- v2 K4 C& W! ~- g/ J. n' u0 {4 ^1 W
### 总结
( n9 x; N9 I4 }% a. l* k! `( n# m) [( S4 `9 V* m  w- a
标准化和归一化是时间序列数据预处理的重要步骤,能够提高模型的性能和稳定性。选择使用哪种方法取决于数据的特性和所使用的模型。了解这两者的区别和适用场景,可以帮助更好地进行时间序列分析和预测。: R6 g: a+ f: |" I6 q; }4 I

4 H" P5 L1 z; ]2 @  `1 A4 m6 V9 ]
5 `9 @# Q- Q2 @
) J" B4 }% Y$ u/ l4 d( K# E

判断数据是否适用标准化.py

215 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]

归一化.py

726 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]

标准化.py

727 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]

daily-minimum-temperatures-in-me.csv

62.82 KB, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力  [记录]  [购买]






欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5