- 在线时间
- 479 小时
- 最后登录
- 2026-4-17
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7790 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2923
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1171
- 主题
- 1186
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。
* t; P6 f" u9 u6 V主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。
6 S, i" h+ |! T5 V9 a主成分分析的步骤如下:: f2 m8 t' o0 H4 S! [
7 J; t2 ~# I1 ^* p1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。
" j0 L, d# J6 x& D0 v2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。
; S2 p u. s! g% @3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。% N' m1 b/ l# |# y! L
4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。" N, j, V9 H3 T' w3 t- T& c
5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。5 s! l- P" H( ~) \. k
. W2 f' D7 Y. b3 g# t' o
主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
; z* ?, t( I# N, c! H1 N& { }
; @" ~/ v9 y6 F4 {/ Y' E$ L逐行解释代码的含义:3 v" K, O' l+ f6 G' ^2 q
import numpy as np
* `* d, Y. H+ p$ C) H N ]import pandas as pd5 d* q7 r- e. d3 `3 L! z( T
from sklearn.decomposition import PCA
/ q q3 n: z& F; y
c/ G6 H* ?4 e! S/ H1 [这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。
: A5 y$ z2 _4 D" Rdf = pd.DataFrame({+ n% X: ]+ @7 u' S: R4 d. v
'x1': [149.5, 162.5, 162.7, 162.2, 156.5],& L( [7 }* }& M' a( X1 _/ t
'x2': [69.5, 77, 78.5, 87.5, 74.5],
9 o K; w! i# G$ }0 d 'x3': [38.5, 55.5, 50.8, 65.5, 49]
: `8 L1 C' Y( M& m})
. J9 e3 l9 t5 ]- i, \2 S8 \" D1 z! i3 y# [
这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。
* U5 E5 D# p3 jmodel = PCA().fit(np.array(df))2 J% R& ?& e m: ?/ A
" d- K$ L0 }, C6 D这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。
1 b+ z8 U/ _3 i5 b1 [0 y1 Y( xprint('特征值:', model.explained_variance_)# \4 V6 H7 o. {1 N
print('贡献率:', model.explained_variance_ratio_)$ [( e/ F! ?$ j+ V
print('各主成分的系数:', model.components_)+ B2 R* q. Q" C( M. c
; i# Q' a8 n1 D1 V0 l
这几行代码分别打印了主成分分析模型的三个重要属性:
$ o6 o+ m5 n2 Y$ Q
6 d* H$ S7 v! T& ?1.explained_variance_:特征值,表示每个主成分的方差。4 G/ q4 A' I: {% y" w
2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。: y- P" W4 r* `0 M" b
3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。
- y/ K7 @+ Z2 A% D+ s2 F& p, \2 I& I+ m! H8 d2 q" O7 G
pca_df = pd.DataFrame(model.transform(np.array(df)))
: q* z" P. E) L. W( p% Opca_df.columns = ['F1', 'F2', 'F3'], J0 Q( b* R5 N( F- _, {9 Q6 B
pca_df
& H/ @' Z& h4 d/ ~9 h( R' n/ e7 J, e- q( J9 q7 \. F
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。9 P! {/ ~% X5 ~3 \# p1 f* a- l
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
0 ^( H O `0 Y5 e( ], f$ L: O" {( S+ w
$ }* i; C( O( m- V+ y' v$ I |
zan
|