- 在线时间
- 479 小时
- 最后登录
- 2026-4-13
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7789 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2922
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1171
- 主题
- 1186
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。
3 S& G/ i8 p) J, ~1 e% w' i主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。
0 B7 Q5 h2 Z3 z& A4 Q2 L主成分分析的步骤如下:0 g4 R& d# G& {5 m0 E! j8 T
3 s8 @+ t. s+ |- B, `1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。6 v- k5 r: j! ~, Y" G
2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。5 `8 O- _- ? o6 [
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。
; Q( t; f" Q% ~4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。; k0 e# ~& H. ~
5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。
0 J5 A- [% f& E! z# \: C5 H, F
. P: c0 P+ ]& K4 A主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
6 O9 D% q Z: O. P: g* I% w' ]) B, y2 U. ^1 T# U
逐行解释代码的含义:
8 E- }9 _$ Y% f B; oimport numpy as np
( b: D1 ]2 C/ Y7 h$ F8 q6 oimport pandas as pd
- p' u) H0 {0 I+ D, t/ I- ufrom sklearn.decomposition import PCA' V% t& p5 H, `7 d: m; m
8 m* t- K, u" ]0 y/ L这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。
3 l2 s( D! D T3 L: x4 `. ddf = pd.DataFrame({
) C* {: G0 N0 a9 p8 P I3 z+ n$ E N9 q 'x1': [149.5, 162.5, 162.7, 162.2, 156.5],
7 b! W- ~& G0 U% { 'x2': [69.5, 77, 78.5, 87.5, 74.5],
" [8 \6 U$ Z+ O; j% J8 I0 t! q s0 k$ q 'x3': [38.5, 55.5, 50.8, 65.5, 49]; l' }; |4 j, v5 `9 D( _9 Q
})
4 C3 z) }. f, Q' O1 w. K1 j7 @9 u- j$ e9 I
这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。+ G! ]5 {/ B! _/ T$ s3 h
model = PCA().fit(np.array(df))
& b0 k# F2 P+ r0 n) q# ?9 g6 @/ M& s! G( o
这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。' f. B8 S7 p( ]- f
print('特征值:', model.explained_variance_)
: _. D9 N. |; x& e# mprint('贡献率:', model.explained_variance_ratio_)9 u" E: s& Q+ X m: L; j, U$ v! s
print('各主成分的系数:', model.components_)7 H. f/ r6 P) e9 D: t/ n
3 S; c {2 L/ ?. M1 a0 @- [8 c这几行代码分别打印了主成分分析模型的三个重要属性:
2 n# u- G! r9 }' ^. S8 b A: p. }* `
1.explained_variance_:特征值,表示每个主成分的方差。
8 V' H2 M" S* l, D9 j3 w3 @% M2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。" M- K1 i6 j- F: I" p+ q
3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。5 c3 s; D+ B) p( C9 ]
% u' H3 ]$ u+ L; xpca_df = pd.DataFrame(model.transform(np.array(df)))
2 u! p M' X9 Spca_df.columns = ['F1', 'F2', 'F3']/ y0 m+ x/ J$ ]5 L
pca_df
! n5 t1 X% ]/ r& G7 ]4 f$ E3 A
+ ^0 f/ P8 O7 L4 J2 a3 n这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。
2 `% v! _* t4 i4 @: S希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。9 z3 k \% h+ [
" d4 S7 I4 k) S) R( Q
& Y- q9 x) I/ X' g- F
|
zan
|