- 在线时间
- 479 小时
- 最后登录
- 2026-5-9
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7813 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2931
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1173
- 主题
- 1188
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。
1 d1 H- L6 b/ c- S; H主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。
# D& }8 Y5 h6 O6 S' Z主成分分析的步骤如下:3 R5 }; j/ {+ L2 s8 P2 g M, R C
( U$ d9 r( D( Q. c, o" c! f8 J" ^) L1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。6 n3 [$ ?: h' O
2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。
( w6 q6 I3 e: b3 a3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。- |/ a% @% @. Y; b) q3 D+ C
4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。. g1 x1 W$ B' W/ b" L
5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。
8 X6 M" N- }2 c3 y4 Q# e3 S$ V* y6 t2 r4 y$ j, P. d
主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
2 R5 C6 t# V. q- T" k! V; g
& ~8 s) X! F7 ~$ a ^逐行解释代码的含义:
7 |5 ]8 x, {2 c. e9 t) Timport numpy as np ?! X0 L) q" `% c
import pandas as pd
" H% U% r6 U/ `. ?6 ]+ d' q$ \from sklearn.decomposition import PCA. e+ f- b0 c, o t0 h% K7 [
8 ]# M; \) H9 f$ ^* x这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。9 }+ B) w0 u# q/ q. q& u
df = pd.DataFrame({! U; S# V7 Y+ @8 ~% a! q& ~
'x1': [149.5, 162.5, 162.7, 162.2, 156.5],+ u! d$ Q; {9 [/ M- Z5 O n: ~& {$ ]( q
'x2': [69.5, 77, 78.5, 87.5, 74.5],2 y. L! V8 I% Q6 I4 T
'x3': [38.5, 55.5, 50.8, 65.5, 49]
# c: M, X% _* j( a1 `. X! I})
: t+ ]) m- j* y" m$ k ?$ ^7 E8 x
这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。
3 o7 T9 Z0 ]* _# n0 Qmodel = PCA().fit(np.array(df))9 H1 c+ N2 A1 J
% P: }, R4 y9 _+ \1 L这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。: J3 Z+ g. t5 c ?5 e. Z, Y( S
print('特征值:', model.explained_variance_)
2 j0 t; i! e( Y7 ]print('贡献率:', model.explained_variance_ratio_)
+ u2 ^0 Y* F) Hprint('各主成分的系数:', model.components_)+ \! V% A3 l/ e0 m
: x* o5 o! y- e4 `( c/ \% I
这几行代码分别打印了主成分分析模型的三个重要属性: S, L( E p' z1 e, P7 k6 l
9 A, f) L/ o& A( h0 G$ \2 A* c
1.explained_variance_:特征值,表示每个主成分的方差。 {7 Q: ]" T: |" y' a' X! r x
2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。
2 b* F8 @" R! U/ ^3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。
) k+ I5 q$ x& v! \# ]* W3 I6 r5 d" V: t5 L$ l/ t; w! a
pca_df = pd.DataFrame(model.transform(np.array(df)))4 Q' B9 X9 V) T' L1 b
pca_df.columns = ['F1', 'F2', 'F3']
^2 L+ \) l9 J+ v% J; Ypca_df! G9 j! h) x/ v: ~% r5 E0 t
9 n$ z7 x8 C7 E5 {. s
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。( `5 C% o, S k$ O
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。6 P% m% g# f2 Q
' G% C, U C5 g6 r8 D) _
2 Q# S& V6 q! | |
zan
|