- 在线时间
- 479 小时
- 最后登录
- 2026-4-13
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7789 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2922
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1171
- 主题
- 1186
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。% `$ k5 z4 f% x* R; K: O
主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。
3 m$ c) H: ~0 k% T主成分分析的步骤如下:
+ p" ^* f7 _' n* f7 B
" h% Y2 r! z. X! Q1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。7 G4 v! k* N( ~5 c' d7 r) }% ]4 g+ j
2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。, @; P8 A6 q+ m
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。
9 x1 E7 p) D1 ]4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。
1 B, p/ f- p9 ]: G0 h3 \+ l5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。
% D4 |0 u( U/ Y# V+ b$ P9 r
: u( _" w# S' T主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
) i) Q Y) ~2 _. ?6 Y- t) O
# I9 s, F# ^' h0 n5 e& x逐行解释代码的含义:' H! Q1 t% _2 Y, }; A) r, c. f. h
import numpy as np
: t- t( p5 e6 p3 W0 mimport pandas as pd
) ~$ ]% M" v# K. [from sklearn.decomposition import PCA
$ ?0 r# ^* b! q9 B& t5 F" \- M" S% U. _" ~# x* ~( k: Y f. R
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。; K. h8 N3 g; ?* {
df = pd.DataFrame({5 [! P- w4 o" B y
'x1': [149.5, 162.5, 162.7, 162.2, 156.5],
5 O. X; D [6 y 'x2': [69.5, 77, 78.5, 87.5, 74.5],
* }2 O7 ~0 L, J/ f, j8 P 'x3': [38.5, 55.5, 50.8, 65.5, 49]
+ \! p) d" a7 o: h})
$ a: ?% _ x1 b( V6 ?( [
( D3 S" o" _5 k6 T! A4 n/ V这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。1 l4 @0 `7 F6 p9 R |) D
model = PCA().fit(np.array(df))
$ x9 \. ?" z; d
* X: h( |4 M. |- D2 V- u# ~这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。- @9 d- N' f3 V
print('特征值:', model.explained_variance_)* W5 G2 q1 V W) |2 |( Z, r
print('贡献率:', model.explained_variance_ratio_)
$ ^- z. y% U- Z' W: U. lprint('各主成分的系数:', model.components_)
' O/ x. u) a* h
5 s# q# l% b2 P6 t( t1 K这几行代码分别打印了主成分分析模型的三个重要属性:+ [% i1 S! }+ _/ c. Z! i
D: e. a4 _. S* b8 ]: D" Z5 n1.explained_variance_:特征值,表示每个主成分的方差。' \+ J# N! ~/ O# V- @3 i
2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。
& G' ^0 O+ [# ^4 }$ H% Y8 O4 G3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。
8 ?) i( {# P) C/ W1 V) x; q, P/ A* x
1 ]7 m/ X9 K- ^8 Rpca_df = pd.DataFrame(model.transform(np.array(df)))- U$ R b' U3 r
pca_df.columns = ['F1', 'F2', 'F3']
/ R. A- I( B9 S4 R4 `, a1 npca_df
5 }& Z' } v9 h- I. `/ ?6 D( {9 a6 y' `) L1 G
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。1 L0 Y- S. k& P# G4 q
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。1 O, \ g9 N5 O2 k
% q5 b( B* T# X2 x: A
7 F. T* i4 _6 P ^5 ^! R. @2 d" w |
zan
|