- 在线时间
- 480 小时
- 最后登录
- 2026-6-1
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7823 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2934
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1174
- 主题
- 1189
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。3 I5 g6 t' G, A3 c/ M. ]0 H- L
主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。5 f6 X1 y7 p7 V
主成分分析的步骤如下:
& H( n! G+ I5 u0 ^7 I4 @
5 P* w8 k9 E: p8 f1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。) c$ G" J: g0 N. k/ Y
2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。
+ y/ S, i/ f. f" v3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。( ` R7 z8 D* b8 O0 d8 s8 r
4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。, Q4 G# }+ ]4 @: S
5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。6 y, f+ n4 g( k' s
9 L* w( C. `& x% |0 H主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
# k! ]$ w& G& y# [1 l1 |6 }$ G3 p9 Z; P* a/ T
逐行解释代码的含义:# y4 H9 s' O, w0 W8 `, j
import numpy as np
# F9 C/ q0 c0 {# Fimport pandas as pd
* J# V8 l" j' h: b! f: Tfrom sklearn.decomposition import PCA/ h' N5 n+ ?" `" ]1 W0 {
& q, S! r) p' r9 ~这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。+ n& E+ ~- v7 g- C% F0 M: p
df = pd.DataFrame({- I) n* x- ~+ W9 Q8 z1 P' }
'x1': [149.5, 162.5, 162.7, 162.2, 156.5],7 ^6 J2 g; Y- y8 V) [$ f7 B
'x2': [69.5, 77, 78.5, 87.5, 74.5],$ A0 a" D0 `1 g" t2 d
'x3': [38.5, 55.5, 50.8, 65.5, 49]
& |# i2 U# V, P. c, ?7 M( ?}): G: e8 X, ?3 X+ a1 n& r2 ^0 L
( k! B. I. J( b1 m, j
这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。
) ^- }, A, _. qmodel = PCA().fit(np.array(df))& v+ ?$ \$ e8 t# {' ?% X2 o
, i W( d5 ^3 x% r. a1 ?9 s
这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。6 Z( I6 w, Z& U3 m6 e7 S
print('特征值:', model.explained_variance_)
1 ~" K3 q7 M1 E- g. p' Y+ B+ tprint('贡献率:', model.explained_variance_ratio_)
0 F- o, W% N; O4 |+ f) P1 c) C0 c! T) ]/ |print('各主成分的系数:', model.components_)
6 `5 ]/ k. v! K, j0 |) L4 ?) w; w
2 B3 |$ m# v) k7 b% V. C. G这几行代码分别打印了主成分分析模型的三个重要属性:: ^- @6 q Z( v" p6 r- {* d% T& C
1 f- i% m. Z) p0 F: y5 A5 `
1.explained_variance_:特征值,表示每个主成分的方差。$ `0 i9 Z4 I! U. j' G* r, s
2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。7 ~$ E$ P" N( k, ^
3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。+ R" r9 \ L- V0 V0 o
( r9 Y, A3 e" A* Z
pca_df = pd.DataFrame(model.transform(np.array(df)))
% |6 k7 a7 n1 K7 G, u. g+ Lpca_df.columns = ['F1', 'F2', 'F3']# Q# c0 S, V0 c; J+ _7 x( j/ M$ b
pca_df" e, u2 i2 w5 m I- L
+ H5 I" k) P W7 T; S u
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。( N! P, v( G$ Q9 ^/ J) o0 n$ }
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
7 H9 ]6 c4 ?7 ~
/ L/ A H4 `0 H: m' }
6 I" ]4 B: M# n* z2 ` |
zan
|