- 在线时间
- 480 小时
- 最后登录
- 2026-6-1
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7823 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2934
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1174
- 主题
- 1189
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。% T- r& j& b: \) h! ~ V! J' @# C) n
主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。' z- y+ R7 [( H. k6 F
主成分分析的步骤如下:) `) `) l6 h4 E# b O1 H, C
" |% D: Q: A' R& ?
1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。
/ V! r( m8 T I2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。% v3 X% Y* y x: @$ P4 C* p% Y
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。
& @0 w* p$ ?2 T" C( C. w4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。
L* y' E* j3 G u9 S5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。
/ v1 m& A4 ?* C
1 Z! G! R2 @) Z/ B& F8 V5 y主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
e. Q* G$ o. k7 a) p
) T, f1 Z4 A' M! b逐行解释代码的含义:
% e- P! ? `; p; B/ Fimport numpy as np# L$ c! F6 ~ W6 H
import pandas as pd
4 i |8 L0 \( X, I# zfrom sklearn.decomposition import PCA" P2 I/ A/ I# I' D$ P) m$ e' w9 o
8 o( b7 u! o7 C( D0 x! \; n1 D
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。1 V; [/ w! ?6 H- N
df = pd.DataFrame({3 Z" }) D6 P9 x X6 e. X8 ?
'x1': [149.5, 162.5, 162.7, 162.2, 156.5],
7 Y/ H/ F/ i( i, C8 |" z( O 'x2': [69.5, 77, 78.5, 87.5, 74.5],4 G0 O% h' E# D3 |: D1 E
'x3': [38.5, 55.5, 50.8, 65.5, 49]" W3 J2 }( g. Y; p% f1 ]
})/ h' a I: }+ b- x4 C+ w
. w5 R& o) p' M, n7 ^9 G
这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。: { a; e* z2 B6 I" g
model = PCA().fit(np.array(df))) m# z8 B4 d: ?4 P( L$ y7 m j1 _
* p+ I, Z) X' L8 ?
这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。8 F3 W0 {7 ~6 q0 f
print('特征值:', model.explained_variance_)7 z3 e0 C: \& X+ N" T( h/ a
print('贡献率:', model.explained_variance_ratio_)
2 z4 U% H" X+ Cprint('各主成分的系数:', model.components_)
3 W. b, p; X# T% P) Z, A3 s' H6 p* X$ y$ b8 u& ?
这几行代码分别打印了主成分分析模型的三个重要属性:
! [! @& I! q8 S) ~
- h/ _5 G$ {( g- t9 T9 x( S1.explained_variance_:特征值,表示每个主成分的方差。5 ?8 I: J6 y1 H% i+ |, B; v! ?; s
2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。
0 e4 t4 v& m* V$ \% S1 q/ ~* L K7 R3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。
. `) e% ~. G9 H0 {5 ^& a9 o" ]
5 G6 f ^9 R p kpca_df = pd.DataFrame(model.transform(np.array(df)))
, A3 g. m$ l& a" S! e0 |1 Z' n, Jpca_df.columns = ['F1', 'F2', 'F3']
' P! T0 Z5 l# ]- B lpca_df, C% g# O2 }# t4 _, U0 |1 _' b" u) K0 T
! ?: O& O/ R- r- z' g* ~! J Q
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。
" c& p3 e/ }* w8 r希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
7 T% f5 ?) d3 d1 L v$ |
+ d5 i, ~8 ^$ Y x2 _ F R& i
% ]+ m5 g2 K/ g' `) s |
zan
|