- 在线时间
- 478 小时
- 最后登录
- 2026-4-9
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7788 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2922
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1171
- 主题
- 1186
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。5 Q+ n9 o" Y7 Y7 ]* B* f
主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。
8 L. I2 r5 p; t# ?; {主成分分析的步骤如下:
+ ^+ X/ |0 Z# q9 y1 ?/ E. w
# N. n& G; ?9 E5 u1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。
5 E1 p S7 ], L) g1 R0 `5 p2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。3 G1 S Z; ?- M0 [: \
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。
6 E1 \- s7 F+ ]4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。
0 x; @0 [% _: Q. S k7 J+ U5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。
* U$ }* V7 i0 q$ I% m2 p
3 D! k4 Q9 R0 c- A7 E主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
8 Z) T/ m& ]% {% x1 N0 k5 W! {& I D" t+ [) C* J
逐行解释代码的含义:
t$ {& H+ ]1 Q- cimport numpy as np
4 O7 w1 S4 d: ~5 G5 v. a, limport pandas as pd
1 j6 U& A6 k' e+ D( I. rfrom sklearn.decomposition import PCA d6 L* M8 p+ K9 C9 k
+ p! v2 F' }2 r这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。' O# ]3 b; m; U f- Q
df = pd.DataFrame({
8 I- X, l" `# [+ m7 r G I 'x1': [149.5, 162.5, 162.7, 162.2, 156.5],
1 q) Z$ a2 P9 Q' C 'x2': [69.5, 77, 78.5, 87.5, 74.5],4 h& t! j/ z+ g6 h2 Z
'x3': [38.5, 55.5, 50.8, 65.5, 49]
% X$ I9 z! J S$ K6 |& Q) J})+ i# f8 {4 b G5 Z+ g
* {# H) k1 Q, m6 E, w: }; ]这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。
4 ^ i6 o1 f7 Ymodel = PCA().fit(np.array(df))
3 f x( ^* G8 }
/ G8 o! I, y$ S7 w8 C这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。$ y( k" S$ N) O$ P
print('特征值:', model.explained_variance_)
% S) s, C- Z- M2 [" vprint('贡献率:', model.explained_variance_ratio_): }$ Y1 X' w% Z! T' j) _! i L
print('各主成分的系数:', model.components_)* g" B3 u" u3 ~. j. S3 I- o5 o
7 N5 b+ J5 D" E+ k- I9 `* P% a这几行代码分别打印了主成分分析模型的三个重要属性:
) P8 u: x6 h4 }/ J) G
4 y5 r6 I( c Q/ K6 z/ m1.explained_variance_:特征值,表示每个主成分的方差。
, o1 @2 k% B, ^! R% b P4 ]9 o' t& I2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。
" A; q5 J0 F0 t( _1 I3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。( u2 x4 @2 A5 E' {# p. s
1 N. O# x3 d8 F; u( Rpca_df = pd.DataFrame(model.transform(np.array(df)))$ ~3 h( X* g9 x
pca_df.columns = ['F1', 'F2', 'F3']# A% F6 h6 h! x7 w0 M8 Z4 o
pca_df [' v* L0 Z& W7 g
, Q% W$ ^* c2 z3 i3 b" s/ O+ N% U$ T
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。
- j) `# u( l$ e" B希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。0 q: v# k* a6 y! y
9 |$ U9 ]" p+ [/ L; l4 m
5 N4 g( B/ R+ {' T/ z5 h6 l |
zan
|