- 在线时间
- 479 小时
- 最后登录
- 2026-4-13
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7789 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2922
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1171
- 主题
- 1186
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。0 e) o& z" {. o4 o0 ~+ z1 Z
主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。# K* x, G& \1 I; q5 m
主成分分析的步骤如下:4 I ^ y4 U, P$ c7 }6 J' ^8 n4 V) A
4 D( X3 x' q( J! _" f1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。
& g' n+ a7 j" r) }. p8 G2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。
/ p' |7 {: Y4 R; \( r3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。" V" J, a0 S! m8 B5 y- j
4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。
8 r0 g- q: y( I0 c5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。
: k8 \5 o( c- G. J! y; H! m j1 J4 e; H
主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
$ ^* X9 p. L0 F& c9 _4 H# S
) S$ c5 C7 ^" k0 [! p. r3 u逐行解释代码的含义:' w, W5 u H* ?! B
import numpy as np4 V0 i& G9 ~' X8 Q) I8 {8 C
import pandas as pd2 O- e5 D; G1 T- |8 {+ j, A# q
from sklearn.decomposition import PCA
# }$ U2 i# W+ J/ u* L; G
* h) U A7 C( N$ r. p& S, H$ E* H3 h这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。
& b: Q; P r9 V7 a6 x: \) Z: d1 ^2 p/ Jdf = pd.DataFrame({* J7 P1 m; g4 u; O& i2 W
'x1': [149.5, 162.5, 162.7, 162.2, 156.5],7 X1 J9 N& s2 D* Z) h
'x2': [69.5, 77, 78.5, 87.5, 74.5],5 ^' D" x( u5 [6 Z- m
'x3': [38.5, 55.5, 50.8, 65.5, 49]
, n; p/ o0 o+ E# P A. h% A})
0 D9 t+ A5 c- W# c' f! q, w' G% I7 V
这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。
! V P; t4 h8 }8 W' I) Gmodel = PCA().fit(np.array(df))5 \! \& d" k- k! g e; t
; X7 h- K/ Q( S# H& M+ y/ d这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。- N) A) E2 J& U4 ^! ? w
print('特征值:', model.explained_variance_)5 _7 U! L! @2 h+ {5 x8 b0 E0 X
print('贡献率:', model.explained_variance_ratio_)
9 o2 B! G* v: I* n/ wprint('各主成分的系数:', model.components_)! ^7 O/ O+ N- O6 D$ O. E/ F
. [ x9 @( v/ T e) s
这几行代码分别打印了主成分分析模型的三个重要属性:
, o3 ~! X& i: Z2 B0 K* `
' M9 s3 h6 S% A _1.explained_variance_:特征值,表示每个主成分的方差。
4 Y- |+ _9 o4 l J d9 p( d2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。3 a7 h" |7 I, f o% Z, `8 u$ f
3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。/ Z/ Q9 c3 h8 g0 e
8 d+ w; c5 z$ w& K! F, c& B9 G: Apca_df = pd.DataFrame(model.transform(np.array(df)))
+ r: A5 F7 W' J4 Spca_df.columns = ['F1', 'F2', 'F3']
' t% P# h' ~7 @pca_df
8 s5 C& B: s+ k& L
5 ^3 ]6 g# {7 o+ y) X$ U$ h这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。. g- r9 O2 |3 Z7 t1 a' X8 F: Y
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。+ K6 E" z* X1 G! ]1 g+ v3 y
: V4 w( O% S3 V- @+ y0 G& |9 j' c' r9 `% ?! Q- u
|
zan
|