- 在线时间
- 463 小时
- 最后登录
- 2025-6-15
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7342 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2781
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1156
- 主题
- 1171
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。$ Q0 J, B2 E' g) E( q) ^
主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。
; s( G) B0 d* V1 { z/ _( L, v7 D6 N主成分分析的步骤如下:
) _2 k& |* U$ S/ o1 |" h
5 G* Z& X1 S( E+ `1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。1 |' w2 m9 Y2 A. x) {2 D
2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。
! j5 k. A6 s$ ?/ Z1 W; o, ?3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。3 _% E1 Z9 C$ r% x( x* j3 a' b
4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。
- U. T, ~) y4 y+ [* s3 [& S2 j) w5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。* d4 u4 T- R' S1 N/ r/ V5 D
3 E% [% ^; w: T. x主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
. n3 v! m+ t, t1 m6 r9 T _# [; i4 o9 W/ ~3 M) _. K* T
逐行解释代码的含义:+ k$ t' l& j `1 U! m# }: s5 K
import numpy as np, K! @' m- h+ ?# w
import pandas as pd- ~8 d% f/ a8 N
from sklearn.decomposition import PCA
& b# `; z+ y, j7 U1 s0 z* [5 Y' J# E4 R2 v3 f- [# V: R
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。
- p( T- C/ f( Qdf = pd.DataFrame({) Y8 |. T+ x; u1 Y/ p
'x1': [149.5, 162.5, 162.7, 162.2, 156.5],- B+ T( \( K0 I8 s* A8 l# [" M) x
'x2': [69.5, 77, 78.5, 87.5, 74.5],
, R- V6 ^: ~+ M9 \2 v 'x3': [38.5, 55.5, 50.8, 65.5, 49]( S! l" k8 T, [: h2 i: `+ x
})
1 y) E+ X L) F% S: b- O4 G3 `, L! Z9 ]* {* V1 {1 \4 Q; ~
这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。: h0 m. }* p+ L
model = PCA().fit(np.array(df))0 Z0 `% f1 J0 w6 P0 p
: ^+ f+ ~7 ~1 ~
这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。- \ |0 R. s- X: v
print('特征值:', model.explained_variance_)
8 y4 V7 I- I' k5 oprint('贡献率:', model.explained_variance_ratio_)# Y" z' B. E5 Q* {+ I( l! d L3 o
print('各主成分的系数:', model.components_)" { R0 `. l) ?) e5 M$ N
t1 b' _9 r* E) Y1 w Q" K这几行代码分别打印了主成分分析模型的三个重要属性:
5 d( Q$ ]# }! r* ~) l
8 f3 `7 l& y' v9 ~" @' T6 m2 e- t& N1.explained_variance_:特征值,表示每个主成分的方差。2 n! L2 \9 W" t H6 M% Y U; R
2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。
' e- j% e5 [. M) `3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。5 L5 w0 N6 f- J$ U+ n! `5 t, C# Q
9 [* {7 w0 l( R. e. z
pca_df = pd.DataFrame(model.transform(np.array(df)))& O8 R7 u% @. t4 Y! Q
pca_df.columns = ['F1', 'F2', 'F3']
* A9 ]) b$ x( ]" [( R5 y# Kpca_df
- @3 l0 Z+ I) L3 }& X, N) i' I
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。* f4 @. k/ Q0 G; Y& P) Y
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。. @0 \2 u' j5 Q" p; L# j& ]
& g6 r" ^9 Q- o5 n9 V: u, Z: } E
|
zan
|