- 在线时间
- 468 小时
- 最后登录
- 2025-7-19
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7541 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2842
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1160
- 主题
- 1175
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。
7 {% y) O2 L; ? s4 x1 ?8 n0 w, {* b主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。
# T, W( z) X+ ~主成分分析的步骤如下:. T% k' b8 A0 D8 F
$ Y" [8 p% a% H. ~' F7 o- j/ l. ~
1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。' ~1 }0 h6 J( ]$ W- ]
2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。
- j# z3 U! Q$ C. m) n* W( X; G6 z3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。+ U- ~, ^$ a7 J3 C- p+ D$ S
4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。& P( k+ m) v I$ F" \; g
5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。6 c' ~& N2 Q% K3 d
% K) ~% N; L9 t9 o
主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
' j8 c. M% d$ ?; Z+ `% T M- D* @% M; V! M8 D, j
逐行解释代码的含义:2 n( O' J! A& _) N5 S( w4 Z
import numpy as np
4 I( N7 v, A/ Z Rimport pandas as pd
4 w+ L8 w5 u$ P8 }( u+ I4 X# l3 g* Xfrom sklearn.decomposition import PCA6 V$ W; ^; J" P4 @: ]3 P
" ~* z4 w3 N' Y( k9 W5 E
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。
. u9 z) s% I! z H: fdf = pd.DataFrame({9 |+ Y3 }/ N' p
'x1': [149.5, 162.5, 162.7, 162.2, 156.5],
0 \6 L: {' W0 b; @; I% O7 U9 e 'x2': [69.5, 77, 78.5, 87.5, 74.5],
- _- Y! ?6 C% v0 w 'x3': [38.5, 55.5, 50.8, 65.5, 49]) ]" D/ G* T# }( \8 G
}): |4 P6 U6 {- J/ Y
. Q! n0 T3 h& l; I* C这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。
9 Z" ?$ K+ u+ c5 n% G) i7 K fmodel = PCA().fit(np.array(df))7 o5 ?5 m% l7 g. A. q' R
* @" @+ C9 s5 j/ E5 V/ H" Z& L这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。 ] l. G& H5 |; m
print('特征值:', model.explained_variance_): ]. W# u+ ]8 ~/ l- p3 p* r& {
print('贡献率:', model.explained_variance_ratio_): [2 D: p8 E" P k& M3 K7 `
print('各主成分的系数:', model.components_)+ ?3 S) q& G3 f/ i8 j
( V* J+ ]3 @1 [ R0 B$ m% m
这几行代码分别打印了主成分分析模型的三个重要属性:' E' r) l1 {5 j F
7 [. U C% t- S) P. v1.explained_variance_:特征值,表示每个主成分的方差。
" l9 @* s4 j) z2 b7 N) v3 F( ^1 w2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。
6 L/ @% Y; ^2 ]" [3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。
8 }+ `; z4 V. A- ?) h4 q; z2 }! {- [. P) ]
pca_df = pd.DataFrame(model.transform(np.array(df)))
, V; E( I. \2 B! N1 g# Q* M. `pca_df.columns = ['F1', 'F2', 'F3']
; ^0 _ v$ y' T+ f- W+ npca_df
5 a% ~ u1 Y8 m5 q% I) u( L- t7 }% `* S9 K! d5 ^
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。2 P5 e5 j4 G* o6 F: ? @3 U* o' }9 n5 r
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。/ ~7 }" [% T' R% w7 P# `
7 V( N. q. e8 a3 l) M0 {+ f* _- m
+ C2 r! l5 v9 ^' E( Q
|
zan
|